講演情報

[4Yin-B-24]アクションのキャッシングと再拡散によるVision-Language-Actionモデル推論の高速化

〇大井 隆史1、大塚 光莉1、市川 雄樹1、金子 竜也1、本村 真人1、藤木 大地1 (1. 東京科学大学)

キーワード:

深層学習、フィジカルAI、ロボット基盤モデル

視覚言語モデルと拡散モデルベースのアクションヘッドを組み合わせた拡散ベースVision-Language-Actionモデルは,ロボット制御タスクで高い成功率を発揮している.
しかし,アクションヘッド内の反復的なデノイズ処理はレイテンシが大きく,推論のボトルネックとなっている.
そこで本研究では,キャッシュした過去のアクションを先行知識として再利用することで,アクション生成に必要な計算量を削減し,推論を高速化する手法を提案する.
シミュレーション環境での実験において,本手法は極めて少ないデノイズステップ数での生成でも高い成功率を維持し,ベースラインと比較して最大24.7%成功率が向上した.