講演情報

[1Yin-B-55]KimonoVista：着物と文化理解のための視覚情報データセットの試作

宮田侑佳¹、長谷川愛珠¹、加田萌¹、西潟優羽¹、伊東和香¹、奥村紀之²、水沼千枝¹、〇倉光君郎¹ (1. 日本女子大学、2. 武庫川女子大学)

キーワード：

視覚言語モデル、評価データセット、日本伝統文化

Vision-Language Model（VLM）の評価において、近年、日本文化を含むデータセットが開発されているが、これらは日本の風景、食べ物、アニメなど広範な文化要素を扱うものであり、着物の種類、文様、着装ルールなど着物に特化した体系的な評価データセットは見受けられない。本研究の目的は、着物を対象とした生地の織り方や染め方などの専門知識を含むデータセットを構築し、VLMの日本文化に対する理解を定量的に評価することである。提案手法として、任意の状況で撮影した着物画像とその画像に対応する質問-回答ペアを人手で作成し、着物の柄名称分類、着装時期の季節性判断、着装場面の適切性評価に関するカテゴリを含むベンチマークデータセットを構築した。 6つのVLM（GPT-5-mini、Claude-haiku-4-5など）を本データセットで評価した結果、一般物体認識では高性能なモデルであっても、着物の柄名称識別、着用時期判断、着用場面評価において精度にばらつきが見られ、着物特有の文化的理解に課題があることが示された。本研究の成果は、観光産業、伝統文化継承、文化教育など、文化理解を要する幅広い分野でのVLM活用に貢献することが期待される。

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る