講演情報

9:15 〜 9:30

[5M1-GS-2b-02]Cross Bisimulationに基づく暗黙的模倣学習によるサンプル効率的な強化学習

〇今川孝久¹、榎田修一¹ (1. 九州工業大学)

キーワード：

強化学習、模倣学習

強化学習は様々な応用事例がある有用な手法であるが，一般に大量のデータが必要で，このことは改善すべき課題の一つである．本研究では，必ずしも質の高くない少量の模倣対象データを活用し，強化学習のサンプル効率を改善する手法Cross Bisimulation based Implicit Imitation Learning (CBI2L) を提案する．本研究では，模倣対象となるmentorと強化学習の実行者であるobserverのエージェントそれぞれのマルコフ決定過程に対し，その間での累積報酬差に関する擬距離cross bisimulation metricを定義する．そして，不動点定理によるcross bisimulation metricの一意存在性，mentorとobserverの累積報酬期待値の差とcross bisimulation metricの関係性について理論的に分析し，observerの学習にmentorの累積報酬を用いるCBI2Lの妥当性を示す．さらにはCBI2Lをsoft actor-critic (SAC)に組み込み，PointMaze環境でSACと比べてサンプル効率が改善することを実際に示す．

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る