講演情報

[3B-01]LLM入力テキスト中のステレオバイアス自動検出およびプロンプト反映手法の提案

*乾 映之右1、中村 亮太1 (1. 武蔵野大学データサイエンス学部データサイエンス学科)
発表者区分:学生
論文種別:ショートペーパー
インタラクティブ発表:あり

キーワード:

LLM、バイアス検出

本稿では、ユーザが大規模言語モデル(LLM)へ入力するテキスト中のステレオバイアスを自動的に検出・評価し、その評価結果をプロンプトに組み込むことで、LLM側のバイアス検出・抑制能力を向上させる手法を提案する。本手法は、入力テキスト中で観察されたバイアス特性を抽出・付与し、これをLLMへの入力プロンプトに反映させる。その後、バイアス評価情報を付加したプロンプトと付加しないプロンプトを用いた場合のLLM出力を比較し、バイアス抑制効果を検証する。本研究によって、LLMにおけるステレオバイアスとプロンプトの関係が明確化され、ユーザ由来のステレオバイアスを増幅するリスクが低減されることで、公平な言語生成の実現を目指す。