[1G2-GS-2a-02]比較バンディット問題における認知的満足化探索
〇大用 庫智1、和田 拓真2、神谷 匠2、高橋 達二2,3(1. 関西学院大学、2. 東京電機大学、3. 理化学研究所 革新知能統合研究センター )
キーワード:
機械学習、強化学習、比較バンディット問題、満足化
強化学習の基本的な問題であるバンディット問題は,インターネット広告配信やゲーム木探索などに幅広く応用されている.とりわけ注目され始めているのが,明示的な報酬の観測が必要な従来の設定と対照的に,一対比較による相対的な報酬を用いる設定に拡張した比較バンディット問題である.その解法の中ではDouble Thompson Sampling (D-TS)が高い性能を示す.これは確率分布からランダムに抽出された行動価値に従うことで最適な行動を探索する手法である.しかし比較バンディット問題は一対比較であるため,いずれの既存手法も必要となる試行錯誤の多さに悩まされる.そこで本研究では,満足化という目標水準を満たす行動を素早く探索する人間の意思決定方法に着目し,価値関数のレベルで満足化を実装したRisk-sensitive Satisficingを活用するアルゴリズムを提案する.既存または乱数によるデータセットで検証した結果,D-TSより性能の劣るデータセットも一部あるものの,比較バンディット問題を解くアルゴリズムの性能指標である弱い後悔の値においては既存手法よりも性能を改善できたことを報告する.

