講演情報

[4Yin-B-48]LLMの内部表現に基づく内集団バイアスの制御

〇千福浩平¹、西本恵太¹、浅谷公威¹、坂田一郎¹ (1. 東京大学)

キーワード：

大規模言語モデル、内集団バイアス

大規模言語モデル（LLM）は人物評価や意思決定支援へ利用される一方で、不公平な判断を導く認知バイアスを示す恐れがある。こういったLLMにおける認知バイアスを抑制・制御する手法が提案されてきたが、着目されてきた認知バイアスは一部にとどまっている。本研究では、自らと同じ集団を優遇する「内集団バイアス」に着目した。ここでは、内集団バイアスを潜在的なものと顕在的なものの2つに分類し、LLMの内部表現から内集団バイアスに対応するベクトルを抽出した。このベクトルに基づいた制御で内集団バイアスの制御が可能であることを示すとともに、同じ内集団バイアスでも、潜在的バイアスと顕在的バイアスは異なる内部表現を持つことを明らかにした。また、LLMによる評価の理由付けを分類することで、潜在的バイアスと顕在的バイアスではその理由付けに言語的な現れ方が異なることを示した。これらの結果は、バイアスを抑制された公平なLLMの運用可能性や、バイアスの発生メカニズムについて示唆を与えるものである。

セッション詳細へ戻る