講演情報
[1Yin-A-09]MLLMのハルシネーション検出および編集
〇和田 唯我1,2,3、松田 一起1、Neubig Graham3、杉浦 孔明1,2 (1. 慶應義塾大学、2. 慶應AIセンター、3. カーネギーメロン大学)
キーワード:
ハルシネーション、マルチモーダル大規模言語モデル、画像キャプション生成
マルチモーダル大規模言語モデル(MLLM)はしばしばハルシネーションを含む文を生成する.ハルシネーションはモデルの実応用における信頼性を損なうため,MLLM開発にはハルシネーションに関する評価および分析が不可欠である.本研究ではMLLMのハルシネーション検出および編集を目的とする新たなタスク"multimodal fine-grained hallucination detection and editing"を提案する.また,ハルシネーションに該当するスパンを6つのエラー種類に基づいて特定し,適切な修正テキストを出力するモデルZINAを提案する.さらに,モデルの学習および評価のため,新たにVisionHallデータセットを構築した.VisionHallにおける実験の結果,提案手法はGPT-4oおよびLlama-3.2を含むベースライン手法を大きく上回った.
