The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

1:30 PM - 1:45 PM JST(4:30 AM - 4:45 AM UTC)

[2G4-OS-47a-01]Mask-guided VLA: Vision Language Instruction with Attention-guiding Mask

〇Kango Yanagida¹, Tatsuya Aoki¹, Tadahiro Taniguchi^2,3, Takato Horii^1,4 (1. The University of Osaka, 2. Kyoto University, 3. Ritsumeikan University, 4. IRCN The University of Tokyo)

Keywords:

VLA,robotics foundation models,multimodal instruction following,robot manipulation

VLAにより，ユーザーは言語指示を通じてロボットにタスクを依頼できるようになってきている．しかし，言語のみに依存する現在のVLAには，把持対象物や配置先を言語のみでは適切に理解できない問題と，ユーザーがインスタンスレベルで対象を特定する指示を作成する際の認知的負荷が高いという問題がある．本研究では，既存の言語指示追従VLAに対し，注意誘導マスク画像を統合する視覚指示融合ネットワークとその学習戦略を提案し，従来の言語指示（LI）に加え，視覚言語指示（VLI）および視覚指示（VI）の3つの指示形式に対応可能なMask-guided VLAを実現した．シミュレーションベンチマークLIBEROを用いて複数の融合構造と学習戦略を比較した結果，Late fusion構造と2段階学習が，言語指示追従性能を維持しつつ視覚指示追従能力を最も効果的に付加できることを確認した．

Back to Session information