The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[1Yin-B-55]KimonoVista: A Prototype Dataset of Visual Information for Understanding Kimono Culture

Yuka Miyata¹, Manami Hasegawa¹, Moe Kada¹, Yuha Nishigata¹, Waka Ito¹, Noriyuki Okumura², Chie Mizunuma¹, 〇Kimio Kuramitsu¹ (1. Japan Women's University, 2. Mukogawa University)

Keywords:

Vision Language Model,Evaluation Dataset,Japanese Traditional Culture

Vision-Language Model（VLM）の評価において、近年、日本文化を含むデータセットが開発されているが、これらは日本の風景、食べ物、アニメなど広範な文化要素を扱うものであり、着物の種類、文様、着装ルールなど着物に特化した体系的な評価データセットは見受けられない。本研究の目的は、着物を対象とした生地の織り方や染め方などの専門知識を含むデータセットを構築し、VLMの日本文化に対する理解を定量的に評価することである。提案手法として、任意の状況で撮影した着物画像とその画像に対応する質問-回答ペアを人手で作成し、着物の柄名称分類、着装時期の季節性判断、着装場面の適切性評価に関するカテゴリを含むベンチマークデータセットを構築した。 6つのVLM（GPT-5-mini、Claude-haiku-4-5など）を本データセットで評価した結果、一般物体認識では高性能なモデルであっても、着物の柄名称識別、着用時期判断、着用場面評価において精度にばらつきが見られ、着物特有の文化的理解に課題があることが示された。本研究の成果は、観光産業、伝統文化継承、文化教育など、文化理解を要する幅広い分野でのVLM活用に貢献することが期待される。

Comment

To browse or post comments, you must log in.Log in

Back to Session information