講演情報

[1Yin-B-18]テキストに基づく人物再同定における画像/テキストの意味を考慮したマスクモデリング

〇荒木 空1、田良島 周平2 (1. 東北大学、2. NTTドコモビジネス株式会社)

キーワード:

人物再同定、マルチモーダル学習、コンピュータビジョン

テキストに基づく人物再同定タスクは,自然言語による人物記述のみをクエリとして同定された人物の画像を検索するタスクである.近年,Masked Language/Image Modeling を用いた双方向局所マッチングにより,画像とテキスト間の局所的対応関係を強化する手法が提案されたが,マスクトークンをランダムに選択しているため,同一モーダルによる予測補完や人物同定に非本質的なマスクトークン選択の可能性がある.本研究では,意味的領域や人物同定に重要度の高いトークンを考慮したマスキング戦略を導入し,テキストに基づく人物再同定におけるマルチモーダル表現学習の性能向上のための枠組み semantic-aware BiLMa (sBiLMa) を提案する.当該タスクの代表的なベンチーマークで評価したところ,提案手法が既存手法を上回る性能を達成することを確認し,マスキング設計の有効性を示した.