講演情報

13:30 〜 13:45

[2G4-OS-47a-01]Mask-guided VLA：注意誘導マスク画像を用いた視覚言語指示の導入

〇柳田栞吾¹、青木達哉¹、谷口忠大^2,3、堀井隆斗^1,4 (1. 大阪大学、2. 京都大学、3. 立命館大学、4. 東京大学IRCN)

キーワード：

VLA、ロボット基盤モデル、マルチモーダル指示追従、ロボットマニピュレーション

VLAにより，ユーザーは言語指示を通じてロボットにタスクを依頼できるようになってきている．しかし，言語のみに依存する現在のVLAには，把持対象物や配置先を言語のみでは適切に理解できない問題と，ユーザーがインスタンスレベルで対象を特定する指示を作成する際の認知的負荷が高いという問題がある．本研究では，既存の言語指示追従VLAに対し，注意誘導マスク画像を統合する視覚指示融合ネットワークとその学習戦略を提案し，従来の言語指示（LI）に加え，視覚言語指示（VLI）および視覚指示（VI）の3つの指示形式に対応可能なMask-guided VLAを実現した．シミュレーションベンチマークLIBEROを用いて複数の融合構造と学習戦略を比較した結果，Late fusion構造と2段階学習が，言語指示追従性能を維持しつつ視覚指示追従能力を最も効果的に付加できることを確認した．

セッション詳細へ戻る