講演情報

14:40 〜 15:05

[8G-04]複数・長時間映像に対応した言語モデルベースの関連シーン検索

石田健悟¹、*山崎智史¹、ジショウトン¹、船田純一¹、劉健全¹ (1. 日本電気株式会社)

PDFダウンロード

発表者区分：一般
論文種別：ロングペーパー
インタラクティブ発表：あり

キーワード：

映像解析、VLM、映像シーン検索、情報抽出

本研究では複数カメラ・長時間映像における人物ごとのキャプション生成に基づく映像シーン検索手法を提案する。近年、視覚言語モデルの発展に動機づけられ、長時間映像に対する言語モデルベースの映像シーン検索手法が提案されている。言語モデルベースの検索手法では、入力映像を分割した短いビデオクリップごとに生成したキャプションに基づいて、自然言語クエリに関連する映像シーンを検索する。しかし従来手法は映像内に複数の人物が現れる場合に各人物の詳細な行動を見逃すことやクエリに関係のない人物のキャプションによって誤認識を生じることが課題となる。そこで本提案手法は、カメラ間人物追跡を活用してキャプションを人物ごとに生成することで、複数カメラ・長時間における人物行動の映像シーン検索精度を向上させる。複数カメラ・長時間映像の独自データセットでのシーン検索タスクにおいて実験評価を行い、提案手法の有効性を確認した。

セッション詳細へ戻る