講演情報
[7B-04]強化学習による差動二輪車制御における未知実証環境への適応
*門垣 幸樹1、大島 裕明1 (1. 兵庫県立大学)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
強化学習、Domain Randomization、車体制御
本研究では,Domain Randomization(DR)を組み込んだPPOベースの制御方策(DR-PPO)を用いて, 環境パラメータの変動下でも安定して差動二輪車を制御できるかを検証する. 差動二輪車は,左右の車輪を独立に制御することで前後左右に動作可能な車両型ロボットである. 実運用においては環境条件が多様かつ予測不可能であるため,環境特性に即した柔軟な適応が求められる. 従来の強化学習モデルは,固定パラメータ下で学習を行うことが多く,環境変動に対する頑健性に限界がある. 本研究では,学習時に摩擦係数や車輪モーターの最大トルク,最大速度を一定範囲内でランダムにサンプリングするDRを導入し,固定パラメータで学習した従来手法との比較実験を通じて,その有効性を評価した. 結果として,DR-PPOは環境変動下でも高い成功率とロバスト性を維持することが確認された.