講演情報

[2K4-GS-7b-01]再構成的画像埋め込みによる直交潜在シフトを用いたテキスト-画像拡散モデルにおける色のバイアス緩和

〇藤谷 恒輝1、邵 之昊1、田邉 克晃1、渡辺 健太1、山崎 俊彦1 (1. 東京大学)

キーワード:

テキスト-画像拡散モデル、属性ハルシネーション、直交潜在シフト

本研究では, テキストから画像を生成する拡散モデルが, 特定のプロンプトに対し本来の指示と異なる色を配置するというバイアスの解消方法について論じる. テキスト-画像拡散モデルが持つ色のバイアスに対し, 本稿は, 画像再構成用にFine-tuningされたCLIPモデルから得られる画像埋め込みベクトルを用いた介入手法を提案する. 実験により, これらの画像埋め込みベクトルは, 元となる画像内容が多様であるにもかかわらず互いに高いコサイン類似度を示し, かつテキストプロンプトの埋め込みベクトルとほぼ直交することが判明した. テキストプロンプトの埋め込みベクトルに対して, この画像埋め込みベクトルを微量加算する新手法「直交潜在シフト」を行うことで, 特定の色属性への固執が緩和されて指示通りの色属性が生成されることが確認された. 同等のノルムを持つガウシアンノイズの付与ではバイアスが緩和されなかったことから, バイアス緩和には単なる撹乱ではなく, 直交潜在シフトが有効であることが示唆された. 本知見は, テキスト-画像拡散モデルにおける属性の制御性を向上させる新アプローチを提供するものである.