Presentation Information
[4Yin-B-64]A Log-Likelihood-Based Internal Confidence Metric for Analyzing Visual Information Contribution in VLMs
〇Yuka Miyata1, Yuha Nishigata1, Karin Yamashita1, Waka Ito1, Chie Mizunuma1, Noriyuki OKUMURA2, Kimio Kuramitsu1 (1. Japan Women's University, 2. Mukogawa Women's University)
Keywords:
Vision Language Model,Log-likelihood,Internal confidence
Vision-Language Model(VLM)は、ソフトウェア開発、医療画像、フィジカル AI など、多岐にわたる分野での応用が拡大しているが、VLM が画像から得られる視覚特徴を参照して応えているのか、言語モデルが事前知識から推論して応えているのか、根拠が不確かなことが課題になっている。
我々の先行研究では、モデルの出力に対する確信度を表す内部確信指標 C を対数尤度をベースに定義し、画像あり/なし条件での変化量 ∆C に基づき内部確信を推定した。本稿では、これを拡張し、層別内部確信指標 ∆C(l) を視覚情報寄与の指標として導入することで、Transformer 各層における出力確率分布の変化を測定し、画像情報がモデル内部のどの層で強く影響を及ぼしているかを定量的に分析する。Projection型アーキテクチャを採用する 2 つの VLM を対象に実験を行った結果、モデル間で Peak Layer の分布および ∆C(l) の大きさに差異が確認され、視覚情報の統合位置および活用過程が内部確信に与える影響の違いが示された。
我々の先行研究では、モデルの出力に対する確信度を表す内部確信指標 C を対数尤度をベースに定義し、画像あり/なし条件での変化量 ∆C に基づき内部確信を推定した。本稿では、これを拡張し、層別内部確信指標 ∆C(l) を視覚情報寄与の指標として導入することで、Transformer 各層における出力確率分布の変化を測定し、画像情報がモデル内部のどの層で強く影響を及ぼしているかを定量的に分析する。Projection型アーキテクチャを採用する 2 つの VLM を対象に実験を行った結果、モデル間で Peak Layer の分布および ∆C(l) の大きさに差異が確認され、視覚情報の統合位置および活用過程が内部確信に与える影響の違いが示された。
