[1G2-GS-2a-05] 社会的強化学習における大局基準値共有とGRCの効果 | 2021年度人工知能学会全国大会（第35回）

2021年度人工知能学会全国大会（第35回）

2021年6月8日〜6月30日オンライン開催

戻る

2021年度人工知能学会全国大会（第35回）

2021年6月8日〜6月30日オンライン開催

[1G2-GS-2a-05]社会的強化学習における大局基準値共有とGRCの効果

〇秋庭拓実¹、高橋達二²、浦上大輔¹(1. 日本大学、2. 東京電機大学)

キーワード：

強化学習、満足化、大局基準値共有

社会的強化学習とは他者との情報共有など、人間の社会性を強化学習の枠組みに取り入れることによって効果的な学習の実現を目的とするものである。素朴な方法としては、複数の強化学習エージェントが並行して探索と学習を行う場合に行動価値を共有するということが考えられる。しかし、行動価値の共有は状態行動対でおこなう必要があり、計算量が大きくなることや探索傾向の偏りから準最適解に陥るという懸念がある。これに対して我々はエピソード毎の獲得報酬の最大値を基準値として共有することと（大局基準値共有）、その基準値を各状態における基準値に変換する方法（GRC: Global Reference Conversion）に基づく強化学習法を提案している。本研究では餌場探索タスクにおいて大局基準値共有とGRCを採用した場合に、各状態の基準値を全て共有する場合と比較して、エージェント数と報酬設定という二つの重要な要因についてより広範囲で最適行動を獲得するという結果が得られた。この結果は「より少ない情報共有がより柔軟な探索と学習をもたらす」ということを意味していると考えられ、その解析と考察についても上記の結果と合わせて報告する。

戻る

2021年度 人工知能学会全国大会（第35回）

2021年度 人工知能学会全国大会（第35回）

[1G2-GS-2a-05]社会的強化学習における大局基準値共有とGRCの効果

キーワード：

2021年度人工知能学会全国大会（第35回）

2021年度人工知能学会全国大会（第35回）