講演情報

[5M1-GS-2b-02]Cross Bisimulationに基づく暗黙的模倣学習によるサンプル効率的な強化学習

〇今川 孝久1、榎田 修一1 (1. 九州工業大学)

キーワード:

強化学習、模倣学習

強化学習は様々な応用事例がある有用な手法であるが,一般に大量のデータが必要で,このことは改善すべき課題の一つである.本研究では,必ずしも質の高くない少量の模倣対象データを活用し,強化学習のサンプル効率を改善する手法Cross Bisimulation based Implicit Imitation Learning (CBI2L) を提案する.本研究では,模倣対象となるmentorと強化学習の実行者であるobserverのエージェントそれぞれのマルコフ決定過程に対し,その間での累積報酬差に関する擬距離cross bisimulation metricを定義する.そして,不動点定理によるcross bisimulation metricの一意存在性,mentorとobserverの累積報酬期待値の差とcross bisimulation metricの関係性について理論的に分析し,observerの学習にmentorの累積報酬を用いるCBI2Lの妥当性を示す.さらにはCBI2Lをsoft actor-critic (SAC)に組み込み,PointMaze環境でSACと比べてサンプル効率が改善することを実際に示す.