講演情報

[1Yin-B-43]Japanese Video-QA: 日本文化に特化した動画質問応答ベンチマークの構築と評価

〇峯悠大¹、新立拓也¹、髙橋和也¹ (1. NABLAS株式会社)

キーワード：

マルチモーダル大規模言語モデル、動画質問応答、ベンチマーク構築、日本文化理解

本研究では，日本文化に特化した動画質問応答ベンチマーク「Japanese Video-QA」を提案する．データセットは，YouTube上の日本に関する動画428本（4分未満の短尺動画219本，4〜20分の中尺動画209本）に対し，Gemini 2.5 Flashによる質問生成と人手による検証・修正を通じて構築した800件の質問応答ペアから成る．動画は四季・行事，観光名所，伝統文化，食文化，自然・風景，ポップカルチャーの6ドメイン（100サブドメイン）を網羅する．質問は空間理解，計数，行動認識，時間推論，因果推論の5カテゴリで構成され，回答形式は自由記述，選択式，Yes/Noの3種類を含む．評価にはLLM-as-a-Judge方式を採用し，GPT-4oにより各回答を不正解1点，部分正解2点，正解3点で採点した．7つのMLLMを評価した結果，Gemini 3 Proが平均2.61点（3点獲得率76.3\%）で最高性能を達成した一方，オープンソースモデルのQwen3-VL-8B-Instructは2.24点（56.4\%），Phi-4-multimodal-instructは1.74点（32.4\%）にとどまった．本ベンチマークは，日本文化という特定ドメインにおけるMLLMの動画理解能力を定量評価する初の試みであり，今後のモデル改善に向けた指針を提供する．

セッション詳細へ戻る