講演情報

[1Yin-A-10]大規模映像言語モデルと階層的特徴抽出を用いたバスケットボールの文脈考慮型ハイライト生成

〇松尾直哉¹、曽田俊明¹、新藤楓²、井上洋介² (1. 日本IBM システムズエンジニアリング株式会社、2. 日本IBM株式会社)

キーワード：

マルチモーダル学習、ハイライト生成、スポーツアナリティクス

長時間におよぶスポーツ放送からのハイライト抽出は,多大な労力を要する課題である.近年,Geminiなどの大規模マルチモーダルモデル（LMM）が直接的な動画理解による抽出能力を示しているが、長時間動画では重要シーンの見落としや内容の重複が発生しやすい.本研究では,音響イベント検出モデル「YamNet」とLMMを組み合わせた階層的抽出パイプラインを提案する.まずYamNetを用いて歓声等の音響トリガーから候補区間を粗く選別し,その後にGeminiを用いて精密なトリミングを行う.また,LMMを評価者として用い,5つの指標で品質を定量化した.検証の結果,提案手法はGemini単体による直接抽出と比較して,ハイライト抽出数を38%増加させ,内容の重複を大幅に削減した.公式ハイライトに対する再現率も50%（直接抽出は40.6%）に向上し,特にダンク等の重要シーンで高い検出力を示した.一方で,事前分割による文脈喪失が内容記述の正確性に微減を招くトレードオフも確認された.本成果は,音響情報を時間的アンカーとして活用する階層的アプローチが,長尺コンテンツの網羅的な解析に有効であることを示している.

セッション詳細へ戻る