講演情報

[4Yin-B-64]VLMの視覚情報寄与分析のための対数尤度ベースの内部確信指標

〇宮田 侑佳1、西潟 優羽1、山下 果凜1、伊東 和香1、水沼 千枝1、奥村 紀之2、倉光 君郎1 (1. 日本女子大学、2. 武庫川女子大学)

キーワード:

視覚言語モデル、対数尤度、内部確信

Vision-Language Model(VLM)は、ソフトウェア開発、医療画像、フィジカル AI など、多岐にわたる分野での応用が拡大しているが、VLM が画像から得られる視覚特徴を参照して応えているのか、言語モデルが事前知識から推論して応えているのか、根拠が不確かなことが課題になっている。
我々の先行研究では、モデルの出力に対する確信度を表す内部確信指標 C を対数尤度をベースに定義し、画像あり/なし条件での変化量 ∆C に基づき内部確信を推定した。本稿では、これを拡張し、層別内部確信指標 ∆C(l) を視覚情報寄与の指標として導入することで、Transformer 各層における出力確率分布の変化を測定し、画像情報がモデル内部のどの層で強く影響を及ぼしているかを定量的に分析する。Projection型アーキテクチャを採用する 2 つの VLM を対象に実験を行った結果、モデル間で Peak Layer の分布および ∆C(l) の大きさに差異が確認され、視覚情報の統合位置および活用過程が内部確信に与える影響の違いが示された。