講演情報

[2Yin-B-12]視覚言語モデルは文化財の名前を正しく答えられるか?

〇川崎 丹瑚1、奥出 真理子1、大内 啓樹2 (1. 茨城工業高等専門学校、2. 奈良先端科学技術大学院大学)

キーワード:

画像認識

本研究は、建築文化財を対象として、視覚言語モデル(Vision-Language Models, VLM)の名称認識能力を評価することを目的とする。近年、VLMは画像キャプション生成や視覚的質問応答(VQA)で高精度を示しており、「神社」や「寺院」など、一般名詞で表されるカテゴリの物体については高い認識精度を達成している。一方で、「鹿島神宮」や「薬王院」など、固有名で表される個別の文化財については、依然として認識精度が低い。とりわけ、建築文化財に関しては、全体の構造や様式といった細部に着目しなければ識別できない点が、本質的な難しさにつながっている。こうした課題を踏まえ、本研究では、VLMが文化財の名称をどの程度正確に生成・認識できるかを検証する。