Presentation Information

[1Yin-B-25]An Interactive Video Retrieval System with Multimodal Input and Query Assistance

〇Kazuya Ueki1 (1. Meisei University)

Keywords:

Video Retrieval

本稿では,大規模映像データを対象としたインタラクティブ映像検索の性能を競う国際的コンペであるVideo Browser Showdown(VBS)2026への参加を目的として開発した,Webベースのインタラクティブ映像検索システムU-Ckerを紹介する.本システムは,Webブラウザ上で動作するユーザインタフェースを備え,自然言語テキストおよび参照画像を組み合わせたマルチモーダル検索をサポートする.各入力には個別に重みを付与することが可能であり,複数の手がかりを用いた検索においても,ユーザの検索意図を柔軟に反映できる.また,綴り訂正,翻訳,言い換えを行うクエリ支援機能を備えており,英語を母語としない利用者であっても,検索クエリを容易に調整しながら探索を行うことができる.検索エンジンにはCLIPに基づく特徴表現を用い,映像から抽出したキーフレームを高次元特徴ベクトルとして表現する.これらの特徴量を数百万規模でGPUメモリ上に保持し,クエリとの内積類似度を直接計算することで,大規模映像データセットに対する高速かつリアルタイムな検索を実現した.