The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[2Yin-B-12]Can Vision-Language Models Correctly Identify the Names of Cultural Heritage Sites?

〇Niko Kawasaki¹, Mariko Okude¹, Hiroki Ouchi² (1. National Institute of Technology(KOSEN), Ibaraki College, 2. Nara Institute of Science and Technology)

Keywords:

Image Recognition

本研究は、建築文化財を対象として、視覚言語モデル（Vision-Language Models, VLM）の名称認識能力を評価することを目的とする。近年、VLMは画像キャプション生成や視覚的質問応答（VQA）で高精度を示しており、「神社」や「寺院」など、一般名詞で表されるカテゴリの物体については高い認識精度を達成している。一方で、「鹿島神宮」や「薬王院」など、固有名で表される個別の文化財については、依然として認識精度が低い。とりわけ、建築文化財に関しては、全体の構造や様式といった細部に着目しなければ識別できない点が、本質的な難しさにつながっている。こうした課題を踏まえ、本研究では、VLMが文化財の名称をどの程度正確に生成・認識できるかを検証する。

Back to Session information