講演情報
[4L-04]Large Vision Language Modelの順序数理解の評価
*戸崎 友輔1、宮森 恒1 (1. 京都産業大学大学院)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
順序数、数え上げ、数概念理解、VQA、Large Vision Language Model
近年,画像と言語を統合的に処理できるLarge Vision Language Model(LVLM)の推論能力が飛躍的に向上している.しかし,複雑な数学問題において高い推論能力を示す一方で,人間にとって直感的に簡単と感じられるタスクであっても,訓練データの分布外の入力に対しては正確な推論結果が得られない問題が残っている.特に,数概念を理解し,それを一貫して活用しているかは十分に解明されていない. 本稿では,数の基本概念の一つである順序数に焦点を当て,LVLMが順序数の概念をどの程度正確に把握し,活用できているかを調査する.具体的には,形状・色・材質が異なる複数の物体を円形に配置したCG画像と,物体を特定するための数え上げ質問応答形式のテキストを組み合わせた数え上げVQAタスクを提案し,順序数理解の評価に特化したデータセットを構築した.実験では構築したデータセットを用いて代表的なLVLMを評価し,物体数や順序数の大きさの違いによる分布外汎化能力への影響を多角的に分析する.本稿により,LVLMの順序数の概念理解の限界と性能向上に向けた今後のアプローチの方向性を見出すことが期待される.