The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

1:30 PM - 1:45 PM JST(4:30 AM - 4:45 AM UTC)

[2K4-GS-7b-01]Mitigating Color Bias in Text-to-Image Diffusion Models via Orthogonal Latent Shift with Reconstructive Visual Embeddings

〇Koki Fujiya¹, Zhihao Shao¹, Yoshiaki Tanabe¹, Kenta Watanabe¹, Toshihiko Yamasaki¹ (1. The University of Tokyo)

Keywords:

Text-to-Image Diffusion Models,Attribute Hallucination,Orthogonal Latent Shift

本研究では, テキストから画像を生成する拡散モデルが, 特定のプロンプトに対し本来の指示と異なる色を配置するというバイアスの解消方法について論じる. テキスト-画像拡散モデルが持つ色のバイアスに対し, 本稿は, 画像再構成用にFine-tuningされたCLIPモデルから得られる画像埋め込みベクトルを用いた介入手法を提案する. 実験により, これらの画像埋め込みベクトルは, 元となる画像内容が多様であるにもかかわらず互いに高いコサイン類似度を示し, かつテキストプロンプトの埋め込みベクトルとほぼ直交することが判明した. テキストプロンプトの埋め込みベクトルに対して, この画像埋め込みベクトルを微量加算する新手法「直交潜在シフト」を行うことで, 特定の色属性への固執が緩和されて指示通りの色属性が生成されることが確認された. 同等のノルムを持つガウシアンノイズの付与ではバイアスが緩和されなかったことから, バイアス緩和には単なる撹乱ではなく, 直交潜在シフトが有効であることが示唆された. 本知見は, テキスト-画像拡散モデルにおける属性の制御性を向上させる新アプローチを提供するものである.

Back to Session information