The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[2Yin-A-59]Can Vision-Language Models Infer the Order of Images?

〇Nanami Moribe¹, Waka Ito¹, Yui Obara¹, Yuha Nishigata¹, Yuka Miyata¹, kimiro kuramitsu¹ (1. Japan Women's University)

Keywords:

VLM,Image Reasoning,Temporal Order Estimation

視覚言語モデル（Vision-Language Model; VLM）は、ソフトウェア開発、医療画像、フィジカル AIなど、多岐にわたる分野での応用が拡大している。我々は、これまで主にモックアップ図からのアプリ動作のモデル化、さらにはコード生成によるアプリ開発を実施し、VLMが静止画から時系列や論理的な順序関係を推論する高い能力を有することを確認した。しかしながら、このようなVLMの推論能力を定量的に評価するための手法は、未だ十分に確立されていない。本研究では、VLMに対し、画像間の順序関係を推論させるための新しい評価手法を提案する。具体的には、ある種の順序を有する4枚の画像をランダムに入力し、正しい順序に復元できるか否かをテストする。VLMは、復元の過程で、時間的な推移、因果関係、背後にある物語などを推論する必要があり、その能力を定量化する。我々は、様々な分野の画像データセットを用意し、複数のVLMにおいて本手法の有効性を検証した。

Back to Session information