Presentation Information
[2K4-GS-7b-01]Mitigating Color Bias in Text-to-Image Diffusion Models via Orthogonal Latent Shift with Reconstructive Visual Embeddings
〇Koki Fujiya1, Zhihao Shao1, Yoshiaki Tanabe1, Kenta Watanabe1, Toshihiko Yamasaki1 (1. The University of Tokyo)
Keywords:
Text-to-Image Diffusion Models,Attribute Hallucination,Orthogonal Latent Shift
本研究では, テキストから画像を生成する拡散モデルが, 特定のプロンプトに対し本来の指示と異なる色を配置するというバイアスの解消方法について論じる. テキスト-画像拡散モデルが持つ色のバイアスに対し, 本稿は, 画像再構成用にFine-tuningされたCLIPモデルから得られる画像埋め込みベクトルを用いた介入手法を提案する. 実験により, これらの画像埋め込みベクトルは, 元となる画像内容が多様であるにもかかわらず互いに高いコサイン類似度を示し, かつテキストプロンプトの埋め込みベクトルとほぼ直交することが判明した. テキストプロンプトの埋め込みベクトルに対して, この画像埋め込みベクトルを微量加算する新手法「直交潜在シフト」を行うことで, 特定の色属性への固執が緩和されて指示通りの色属性が生成されることが確認された. 同等のノルムを持つガウシアンノイズの付与ではバイアスが緩和されなかったことから, バイアス緩和には単なる撹乱ではなく, 直交潜在シフトが有効であることが示唆された. 本知見は, テキスト-画像拡散モデルにおける属性の制御性を向上させる新アプローチを提供するものである.
