講演情報

[1Yin-B-59]実環境におけるMLLMによる物理現象理解の評価斜面滑走タスクを用いた視覚認識と物理推論の分析

〇阿部 志道1、吉岡 真治2,1 (1. 北海道大学工学部、2. 北海道大学大学院情報科学研究院)

キーワード:

マルチモーダルLLM、直感的物理、説明可能性

マルチモーダル大規模言語モデル(MLLM)の近年の進展は、数理的な物理問題の解決において目覚ましい成果を上げているが、実環境における「直感的物理」の把握能力については依然として疑問が残る。
本研究ではこの課題に対し、多様な物体の材質や視点変化を含む、実世界の「斜面滑走」画像を用いた新たなデータセットを構築し、MLLMの物理推論能力を評価することを目的とする。人間と、GPT-4oやGemini-2.5-flashなどの最先端モデルを用いた比較実験を行い、滑走挙動に対する予測性能を評価した結果、両者の間に重大な性能差があることが明らかになった。
具体的には、MLLMは教科書的な知識を保持している一方で、視覚情報を適切な物理属性へと接地させることに失敗しており、視点変化や幾何学的な幻覚に対して極めて脆弱であることが示された。Chain-of-Thoughtプロンプトを用いた場合でも、モデルは摩擦のような不可視のパラメータを正確に推定することは困難であった。
以上の結果から、現在のMLLMは、視覚認識と物理法則の乖離を埋めるために必要な3次元空間推論能力を根本的に欠いていると分かる。