講演情報

[2G4-OS-47a-03]世界モデルを用いた方策評価に向けた出力動画の自動改善

〇石津 敦弥1、河野 慎1、マウリヤ スニール1、キム ボンジュン1、松尾 豊1 (1. 東京大学)

キーワード:

世界モデル、方策評価、自動モデル評価

物理環境において動作する視覚言語行動モデルに代表される汎用方策の開発が急速に進展している.
実世界での評価は高コストかつ安全上の制約を伴う一方,物理シミュレータによる評価は環境構築コストが高く,汎用方策の網羅的な評価が課題となっている.
こうした課題に対し,世界モデルは言語指示と画像コンテキストを入力として多種多様なシナリオを柔軟に生成でき,汎用方策の評価基盤として期待されている.
方策の評価は世界モデルの出力動画の質に依存し,その出力動画は世界モデルに入力する言語指示に影響を受ける.
手動による言語指示の調節は多大な労力を要し,検証シナリオが増加するにつれ人手で設計することは困難である.
これに対処するため,本研究では評価フィードバックに基づいて言語指示を洗練させる自動化フレームワークを提案する.
本研究は,言語指示生成プロンプト自体を最適化することで評価者の意図に沿った多様な評価シナリオの出力動画の自動改善を実現し,人的労力を削減する.

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン