講演情報

[4Yin-A-50]LVLM における Soft Register を用いたVisual Attention Sink の緩和とハルシネーションの低減

〇田村颯樹¹、柴田高志¹、月江惇元¹、宮﨑淳¹、髙野奨太¹、中山和子¹ (1. NTT東日本株式会社)

キーワード：

マルチモーダル、大規模視覚言語モデル、Visual Attention Sink、Register Tokens、解釈可能性

Large Vision-Language Model（LVLM）では，画像の背景など無関係な領域に Attention が過剰に集中する Visual
Attention Sink（VAS）現象が知られており，小物体の検出漏れや存在しない物体の誤検出（ハルシネーション）の原因と
なる．本研究では，画像トークン列の直後に学習可能な Soft Register を挿入し，LLM が画像トークンを処理する際の不要
な Attention を吸収させることで VAS の影響を緩和する手法を提案する．通信設備保守の危険予知タスクで評価した結果，
提案手法は F1 スコア 0.876 を達成し，Baseline の 0.791 に対して 8.5 ポイント改善した．特に小物体（矢印標識，コーン
等）の検出精度が大幅に向上し，ハルシネーションの抑制効果を確認した．

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る