講演情報
[5Yin-A-44]連続制御タスクにおける目標志向探索
小河 将真1、〇黒田 琢磨2、神谷 匠2、高橋 達二2、甲野 佑2 (1. 東京電機大学大学院、2. 東京電機大学)
キーワード:
強化学習、機械学習、認知科学、連続制御
近年,深層強化学習は連続制御タスクにおいて高い性能を示しており,特にSoft Actor-Critic に代表される確率的方策最適化手法は,高い学習安定性と汎用性から多くの連続制御ベンチマークにおける基盤手法として用いられている.一方で,試行回数や計算資源に制約のある状況では,探索効率と学習安定性の両立が依然として重要な課題となる.このような状況では,一定の基準を満たす行動を迅速に選択する探索戦略が有効となる可能性がある.この探索戦略は,限定合理性に基づく意思決定理論における満足化として位置づけられており,満足化に基づく目標志向探索は離散タスクにおいて有効性が報告されている.そこで本研究では,満足化に基づく目標志向探索を連続制御タスクへ導入し,探索効率および学習挙動の観点からその有効性を MuJoCo Ant-v5 環境を用いたシミュレーション実験により検証する.実験結果から,希求水準に基づく探索原理が連続制御タスクにおいても有効に機能しうることを示した.
