講演情報

[3Yin-A-23]VLMにおける社会的バイアスへの画像・テキスト情報の寄与分析

〇白藤大幹¹、竹中誠¹、斉藤辰彦¹ (1. 三菱電機株式会社)

キーワード：

社会的バイアス、視覚言語モデル、AI倫理

近年，Vision Language Model (VLM)の社会的バイアスを含む出力が問題視されているが，そのバイアス出力がいずれのモーダル由来なのか十分に検証されていない．本研究では，VLMが生成するトークンの確率分布を活用したバイアス寄与分析手法を提案する．本手法では，(1) バイアスを誘発しうる職業を含むテキストクエリ，及びクエリに紐づくアンチステレオタイプな画像データとテキストを用意，(2) 各モーダルデータをクエリとともにプロンプトとしてそれぞれVLMに入力し，ステレオタイプなトークンとアンチステレオタイプなトークンの生成確率の対数を減算したスコアを各モーダルで算出，(3) 画像のスコアからテキストのスコアを減算した値を提案指標とする．提案指標の値が正の場合は画像が，負の場合はテキストが社会的バイアスにより寄与していることを意味する．FACETをベースとした評価用データセットを構築して実験した結果，ジェンダーバイアスと人種バイアスでは画像が社会的バイアスへ与える影響が大きいモデルが多く，生成タスクにおいても画像がテキストよりも社会的バイアス出力へ影響しやすいことが分かった．

セッション詳細へ戻る