講演情報

[3E1-GS-2d-02]スパース自己符号化器が獲得したVLM特徴量の勾配法による解釈

〇大平 創1、越仲 孝文1 (1. 横浜市立大学)

キーワード:

視覚言語モデル、解釈性、スパースオートエンコーダ

CLIPをはじめとする視覚言語モデル(VLM)は, 身近なアプリケーションの基盤として社会に広く普及している. しかし, その動作原理はいまだ解明されておらず依然としてブラックボックスであり, VLMの内部表現の解釈は, モデルの信頼性や安全性を担保するために極めて重要である. スパース自己符号化器(SAE)は潜在空間を単義的な特徴量に分解する方法として注目されており, CLIPにおいても複数の適用例がある. しかし, CLIPの視覚言語埋め込み空間は画像パッチやテキストトークンの系列方向の表現が圧縮される構造を持つため, 画像・テキスト全体の単位での解釈に限られていた. 本研究では, SAEの特徴量が入力内のどのようなオブジェクトと対応しているかを明らかにするため, 勾配ベースの可視化手法を組み合わせた. 実験の結果, 特定の潜在表現が実世界の局所的な物体概念と明確に対応していることを確認した.