講演情報

[1Yin-B-43]Japanese Video-QA: 日本文化に特化した動画質問応答ベンチマークの構築と評価

〇峯 悠大1、新立 拓也1、髙橋 和也1 (1. NABLAS株式会社)

キーワード:

マルチモーダル大規模言語モデル、動画質問応答、ベンチマーク構築、日本文化理解

本研究では,日本文化に特化した動画質問応答ベンチマーク「Japanese Video-QA」を提案する.データセットは,YouTube上の日本に関する動画428本(4分未満の短尺動画219本,4〜20分の中尺動画209本)に対し,Gemini 2.5 Flashによる質問生成と人手による検証・修正を通じて構築した800件の質問応答ペアから成る.動画は四季・行事,観光名所,伝統文化,食文化,自然・風景,ポップカルチャーの6ドメイン(100サブドメイン)を網羅する.質問は空間理解,計数,行動認識,時間推論,因果推論の5カテゴリで構成され,回答形式は自由記述,選択式,Yes/Noの3種類を含む.評価にはLLM-as-a-Judge方式を採用し,GPT-4oにより各回答を不正解1点,部分正解2点,正解3点で採点した.7つのMLLMを評価した結果,Gemini 3 Proが平均2.61点(3点獲得率76.3\%)で最高性能を達成した一方,オープンソースモデルのQwen3-VL-8B-Instructは2.24点(56.4\%),Phi-4-multimodal-instructは1.74点(32.4\%)にとどまった.本ベンチマークは,日本文化という特定ドメインにおけるMLLMの動画理解能力を定量評価する初の試みであり,今後のモデル改善に向けた指針を提供する.