講演情報
[1Yin-B-55]KimonoVista:着物と文化理解のための視覚情報データセットの試作
宮田 侑佳1、長谷川 愛珠1、加田 萌1、西潟 優羽1、伊東 和香1、奥村 紀之2、水沼 千枝1、〇倉光 君郎1 (1. 日本女子大学、2. 武庫川女子大学)
キーワード:
視覚言語モデル、評価データセット、日本伝統文化
Vision-Language Model(VLM)の評価において、近年、日本文化を含むデータセットが開発されているが、これらは日本の風景、食べ物、アニメなど広範な文化要素を扱うものであり、着物の種類、文様、着装ルールなど着物に特化した体系的な評価データセットは見受けられない。 本研究の目的は、着物を対象とした生地の織り方や染め方などの専門知識を含むデータセットを構築し、VLMの日本文化に対する理解を定量的に評価することである。 提案手法として、任意の状況で撮影した着物画像とその画像に対応する質問-回答ペアを人手で作成し、着物の柄名称分類、着装時期の季節性判断、着装場面の適切性評価に関するカテゴリを含むベンチマークデータセットを構築した。 6つのVLM(GPT-5-mini、Claude-haiku-4-5など)を本データセットで評価した結果、一般物体認識では高性能なモデルであっても、着物の柄名称識別、着用時期判断、着用場面評価において精度にばらつきが見られ、着物特有の文化的理解に課題があることが示された。本研究の成果は、観光産業、伝統文化継承、文化教育など、文化理解を要する幅広い分野でのVLM活用に貢献することが期待される。
