講演情報

[3Yin-A-02]アフォーダンスを考慮した階層的マルチモーダル検索拡張生成による移動マニピュレーション

〇是方 諒介1,2,3、Xie Quanting3、Bisk Yonatan3、杉浦 孔明1,2 (1. 慶應義塾大学、2. 慶應AIセンター、3. カーネギーメロン大学)

キーワード:

生活支援ロボット、Open-Vocabulary Mobile Manipulation、検索拡張生成

本研究では,自然言語指示に基づきロボットが多様な対象物体を適切な配置目標へ運搬するOpen-Vocabulary Mobile Manipulationに取り組む.本タスクは,視覚言語的な意味理解に加えて,物体操作に関するアフォーダンスの推定が必要な点で困難である.そこで本研究では,探索時に収集した画像群からアフォーダンスを考慮したEmbodied Memoryを構築する階層的マルチモーダル検索拡張生成を提案する.本手法は,視覚・領域的な特徴に基づき候補物体を検索したうえで,推定されたアフォーダンススコアを用いてリランキングを行うことで物体操作成功率を向上させる.大規模屋内環境における評価において,提案手法は既存手法を上回る検索性能を達成した.さらに実機実験において,提案手法はタスク成功率85%を達成し,検索性能およびタスク成功率の両面で既存手法を上回った.