講演情報

[4Yin-B-21]未来を考慮した信頼度に基づく目標志向探索

〇宇佐美 健2、高橋 達二1、甲野 佑1 (1. 東京電機大学理工学部、2. 東京電機大学大学院)

キーワード:

強化学習、機械学習、認知科学

人間は常に最適な目標を目指すのではなく,一定の目標水準の達成およびその維持を目指す満足化という性質を持つ.人間が持つこの傾向を強化学習に転用したRisk-sensitive Satisficing(RS)において,行動の選択比率である信頼度は,探索と活用を促進させる役割を担っている.RSを深層強化学習に適用させたRegional Stochastic Risk-sensitive Satisficing(RS^2)においても,この信頼度は用いられている.しかし,深層強化学習においては状態行動空間が広大かつ複雑であり,その実装は現在状態近傍の経験からの近似に留まっている.そこで本研究では,価値関数のように軌跡を踏まえて更新される信頼度を導入し,未来を考慮した学習の実装を提案する.実験の結果,トイタスクにおいて従来手法および一般的な手法よりも成績を良いことを示した.