講演情報

[1Yin-A-15]圧縮動画表現に基づくMLLMによる動画理解

〇八島大地^1,3、栗田修平²、小田悠介³、杉浦孔明¹ (1. 慶應義塾大学、2. 国立情報学研究所、3. 国立情報学研究所大規模言語モデル研究開発センター)

キーワード：

マルチモーダルLLM、動画像理解、圧縮動画表現

本研究では長時間動画像に内在するデータ冗長性に着目し，圧縮動画ストリームを直接処理することでスケーラブルな動画像理解を実現する手法を提案する．本手法は，Iフレームから得られるRGB情報および，動画コーデックに含まれる動きベクトルを活用することで，フレーム列全体を処理することなく長時間動画像理解を可能とする．また，ブロック単位で得られる動きベクトルに含まれるノイズを低減するため，Refined Motion Representationモジュールを導入する．複数の長時間動画像理解ベンチマークにおいて評価した結果，提案手法は既存手法を上回る性能を示した．

セッション詳細へ戻る