Presentation Information
[1Yin-B-55]KimonoVista: A Prototype Dataset of Visual Information for Understanding Kimono Culture
Yuka Miyata1, Manami Hasegawa1, Moe Kada1, Yuha Nishigata1, Waka Ito1, Noriyuki Okumura2, Chie Mizunuma1, 〇Kimio Kuramitsu1 (1. Japan Women's University, 2. Mukogawa University)
Keywords:
Vision Language Model,Evaluation Dataset,Japanese Traditional Culture
Vision-Language Model(VLM)の評価において、近年、日本文化を含むデータセットが開発されているが、これらは日本の風景、食べ物、アニメなど広範な文化要素を扱うものであり、着物の種類、文様、着装ルールなど着物に特化した体系的な評価データセットは見受けられない。 本研究の目的は、着物を対象とした生地の織り方や染め方などの専門知識を含むデータセットを構築し、VLMの日本文化に対する理解を定量的に評価することである。 提案手法として、任意の状況で撮影した着物画像とその画像に対応する質問-回答ペアを人手で作成し、着物の柄名称分類、着装時期の季節性判断、着装場面の適切性評価に関するカテゴリを含むベンチマークデータセットを構築した。 6つのVLM(GPT-5-mini、Claude-haiku-4-5など)を本データセットで評価した結果、一般物体認識では高性能なモデルであっても、着物の柄名称識別、着用時期判断、着用場面評価において精度にばらつきが見られ、着物特有の文化的理解に課題があることが示された。本研究の成果は、観光産業、伝統文化継承、文化教育など、文化理解を要する幅広い分野でのVLM活用に貢献することが期待される。
