講演情報

[5M1-GS-2b-01]限られた計算資源で効率的な意思決定が可能な AlphaZeRS

渡邉 拓巳1、〇高内 優1、鎌田 佑2、櫻岡 良樹2、甲野 佑1、高橋 達二1 (1. 東京電機大学、2. 東京電機大学大学院)

キーワード:

意志決定課題、機械学習、ニューラルネットワーク

近年、ゲームAIの一つであるAlphaZeroは、モンテカルロ木探索と深層ニューラルネットワークを組み合わせた自己対局学習により、囲碁や将棋等のボードゲームで高い性能を示している。一方で、勝敗に基づく報酬の期待値(価値)を最大化する方策を学習する枠組み上、学習・推論における探索回数が増大し、限られた計算資源や即時性が求められる状況への適用は依然として課題である。そこで我々は人間の限られた情報化での効率的な振る舞い、限定合理性を反映した意思決定アルゴリズムRisk-sensitive Satisficing(RS)に着目した。AlphaZero に RS を組み込んだ AlphaZeRS はあらかじめ設定した希求水準を満たす選択肢を非常に速やかに探索し、不必要な探索を抑制できる。本研究では状態空間が広大かつ複雑なリバーシにおいて AlphaZeRS の計算資源に対する性能差の検証を優位さ検定含めて行い、標準的な AlphaZero よりも少ないノード探索数で高い勝率を有することが示せた。