講演情報

[2G4-OS-47a-02]自動運転向け多視点動画生成における世界ハンドオフ整合性指標の設計

〇キム ボンジュン1、河野 慎1、岩澤 有祐1、松尾 豊1 (1. 東京大学大学院 工学系研究科)

キーワード:

世界モデル、フィジカルAI、動画生成、マルチビュー、自動運転

多視点運転動画生成では,視覚的現実感だけでなく,前方および後方視点にわたる物体の連続性を保持しなければならない.そのため、本論文は World Handoff Consistency(WHC)を提案する.WHC は前方画像から後方画像に渡るの物体のハンドオフに対して,時間整合性,世界線整合性,エピポーラ整合性,外観整合性,再投影整合性を測定する自己教師あり指標群である.57本の生成動画において,MatchPair の平均0.481の中,MagicDrive-V2 と InstaDrive は0.72を上回る一方で,DriveDreamer2 は0.17であり,見た目には正しい動画であってもハンドオフの欠落や誤配置が残ることを観察した.これらの結果は,WHC が世界モデルに関する Physical AI の評価を補完することを示している.

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン