講演情報

[1Yin-A-15]圧縮動画表現に基づくMLLMによる動画理解

〇八島 大地1,3、栗田 修平2、小田 悠介3、杉浦 孔明1 (1. 慶應義塾大学、2. 国立情報学研究所、3. 国立情報学研究所 大規模言語モデル研究開発センター)

キーワード:

マルチモーダルLLM、動画像理解、圧縮動画表現

本研究では長時間動画像に内在するデータ冗長性に着目し,圧縮動画ストリームを直接処理することでスケーラブルな動画像理解を実現する手法を提案する.本手法は,Iフレームから得られるRGB情報および,動画コーデックに含まれる動きベクトルを活用することで,フレーム列全体を処理することなく長時間動画像理解を可能とする.また,ブロック単位で得られる動きベクトルに含まれるノイズを低減するため,Refined Motion Representationモジュールを導入する.複数の長時間動画像理解ベンチマークにおいて評価した結果,提案手法は既存手法を上回る性能を示した.