講演情報

[3Yin-A-26]Vision-Language-ActionモデルのLaboratory Automation適用におけるタスク評価指標と言語グラウンディングの課題

〇白井和英¹ (1. 中外製薬株式会社)

キーワード：

Vision-Language-Actionモデル、ラボラトリーオートメーション、ロボットマニピュレーション

Vision-Language-Action (VLA) モデルは自然言語指示からロボット動作を直接生成できる汎用性を有しており、Laboratory Automationへの適用が期待されている。本研究では、LIBEROでファインチューニング済みのSmolVLAとLIBEROを用い、現行のVLA研究におけるタスク評価指標の妥当性と言語明示化効果の観点から、Laboratory Automationへの適用に向けた課題抽出のための検証実験を行った。実験の結果、評価タスクに最適化済みのモデルによる成功率100%のタスクであっても複数エピソード間の配置誤差は大きく、また、実験サンプル操作指示にて往々に用いられる「丁寧に」「正確に」等の制約を言語指示に明示すると、タスク成功率が100%から低下する逆効果が観測された。これらの結果は、「“タスク完了の有無”という現行のVLA研究の大半で用いられている二値的成否判定」と「Laboratory Automationへの実適用において求められる精度指標に基づく成否判定」との間に根本的な乖離が存在することと、VLAに対する言語指示の際にはヒトを前提として作成された実験プロトコルの記述を最適化する必要性があることの2点を示唆している。

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る