講演情報

[5Yin-A-10]Top-k方策分解に基づくランキング方策の効率的なオフ方策学習

岸本 廉2、〇田中 滉一1、清原 明加4、成田 悠輔5、清水 伸幸3、山本 康生3、齋藤 優太4 (1. 慶應義塾大学、2. 東京科学大学、3. LINEヤフー、4. コーネル大学、5. イエール大学)

キーワード:

ランキング、オフ方策学習

本研究では、ランキング方策に関するオフ方策学習を対象とする。オフ方策学習とは、過去のデータのみから新たな方策を学習する技術である。ランキング設定では、行動空間がアイテムの順列から構成され極めて巨大になるため、オフ方策学習は特に困難となる。既存手法は、主に方策ベース手法または回帰ベース手法を採用しているが、それぞれ高分散・高バイアスという問題を抱えている。この課題に対処するため、本研究では両者を効果的に統合した新たなオフ方策学習手法を提案する。提案手法はランキング方策を二段階に分解し、第一段階目で上位k個のアクションを選択するポリシーを学習し、第二段階目で残りの下位アクションを決定する方策を学習する。特に第一段階目の学習では、新しい方策勾配推定量を導入する。この推定量は、上位k個のアクションに対してのみ重要度重み付けを行うことで分散を大幅に低減する。人工データ及び実データ実験により、大規模行動空間により既存手法の性能が悪化する設定においても、提案手法がオフ方策学習の性能を大幅に向上させることを示した。