講演情報
[5Yin-A-29]文脈内強化学習に基づく四足歩行ロボット間の制御知識転移
〇石井 直晃1、計良 宥志1,2、川本 一彦1 (1. 千葉大学、2. 国立情報学研究所)
キーワード:
強化学習、トランスフォーマー、歩行ロボット
深層強化学習に基づくロボット制御ポリシーは特定のダイナミクスに強く依存するため,異なるロボットへの適用時に性能が低下しやすく,ロボットごとの再学習が必要となる.従来研究では,多様な環境条件下での学習によりこの依存性を緩和する試みが行われてきたが,環境やダイナミクスの多様化に伴う学習規模の拡大と計算コストの増大が課題として残されている.本研究では,少量の追加訓練のみで未知のロボットへの適応を可能とする制御ポリシーモデルの獲得を目的とする.文脈内強化学習の一種であるアルゴリズム蒸留を用い,複数の四足歩行ロボットにおける専門家の学習履歴から歩行スキルを蒸留する.さらに,得られたモデルに対してデコーダのみをファインチューニングすることで,未知のロボットへの効率的な適応を実現する.シミュレーション実験により,未知の四足歩行ロボットにおいて安定した歩行が可能であることを確認した.
