講演情報
[4Yin-A-50]LVLM における Soft Register を用いたVisual Attention Sink の緩和とハルシネーションの低減
〇田村 颯樹1、柴田 高志1、月江 惇元1、宮﨑 淳1、髙野 奨太1、中山 和子1 (1. NTT東日本株式会社)
キーワード:
マルチモーダル、大規模視覚言語モデル、Visual Attention Sink、Register Tokens、解釈可能性
Large Vision-Language Model(LVLM)では,画像の背景など無関係な領域に Attention が過剰に集中する Visual
Attention Sink(VAS)現象が知られており,小物体の検出漏れや存在しない物体の誤検出(ハルシネーション)の原因と
なる.本研究では,画像トークン列の直後に学習可能な Soft Register を挿入し,LLM が画像トークンを処理する際の不要
な Attention を吸収させることで VAS の影響を緩和する手法を提案する.通信設備保守の危険予知タスクで評価した結果,
提案手法は F1 スコア 0.876 を達成し,Baseline の 0.791 に対して 8.5 ポイント改善した.特に小物体(矢印標識,コーン
等)の検出精度が大幅に向上し,ハルシネーションの抑制効果を確認した.
Attention Sink(VAS)現象が知られており,小物体の検出漏れや存在しない物体の誤検出(ハルシネーション)の原因と
なる.本研究では,画像トークン列の直後に学習可能な Soft Register を挿入し,LLM が画像トークンを処理する際の不要
な Attention を吸収させることで VAS の影響を緩和する手法を提案する.通信設備保守の危険予知タスクで評価した結果,
提案手法は F1 スコア 0.876 を達成し,Baseline の 0.791 に対して 8.5 ポイント改善した.特に小物体(矢印標識,コーン
等)の検出精度が大幅に向上し,ハルシネーションの抑制効果を確認した.
