講演情報

[2Yin-A-59]視覚言語モデルは画像の順序関係を推論できるか?

〇森部 七海1、伊東 和香1、小原 有以1、西潟 優羽1、宮田 侑佳1、倉光 君郎1 (1. 日本女子大学)

キーワード:

視覚言語モデル、画像推論、時系列推定

視覚言語モデル(Vision-Language Model; VLM)は、ソフトウェア開発、医療画像、フィジカル AIなど、多岐にわたる分野での応用が拡大している。我々は、これまで主にモックアップ図からのアプリ動作のモデル化、さらにはコード生成によるアプリ開発を実施し、VLMが静止画から時系列や論理的な順序関係を推論する高い能力を有することを確認した。しかしながら、このようなVLMの推論能力を定量的に評価するための手法は、未だ十分に確立されていない。本研究では、VLMに対し、画像間の順序関係を推論させるための新しい評価手法を提案する。具体的には、ある種の順序を有する4枚の画像をランダムに入力し、正しい順序に復元できるか否かをテストする。VLMは、復元の過程で、時間的な推移、因果関係、背後にある物語などを推論する必要があり、その能力を定量化する。我々は、様々な分野の画像データセットを用意し、複数のVLMにおいて本手法の有効性を検証した。