講演情報

[2Yin-B-11]合成フィードバックによる大規模言語モデルの検知容易性の向上

〇山内 洋輝1、川畑 輝1、田口 雄哉1、田森 秀明1、岡崎 直観2、乾 健太郎3,4,5 (1. 朝日新聞社、2. 東京科学大学、3. MBZUAI、4. 東北大学、5. 理化学研究所)

キーワード:

Verifier、大規模言語モデル、ファクトチェック、アライメント、選好最適化

大規模言語モデル(LLM)は事実と整合しない誤情報を生成し得る。既存研究では誤情報の生成を事前に抑制するアプローチが支配的であったが、本研究では生成された情報の適切な受容を促すために、誤情報の混入を人間が見抜きやすくなるような生成への最適化を目指す。この検知容易性の向上をスケーラブルに達成するために、人間による追加のフィードバックを用いずに、LLMによって合成したフィードバックに基づいた最適化手法を提案する。具体的には検知モデルの判別結果と事実性ラベルの整合性に基づいて生成された回答に検知正否ラベルを付与する。この事実性ラベルと検知正否ラベルに基づきLLMに選好最適化を適用することで、生成される回答の事実性への影響を抑えつつ検知容易性を向上させる。JSQuADを用いた実験では最適化前のモデルと比べ検知容易性の向上が確認され、提案手法による合成フィードバックに基づいた最適化がLLM出力の事後的な信頼性をスケーラブルに高める手段となりうることが示唆された。