Presentation Information

[5Yin-A-10]Efficient Offline Learning of Ranking Policies via Top-k Policy Decomposition

Ren Kishimoto2, 〇Koichi Tanaka1, Haruka Kiyohara4, Yusuke Narita5, Nobuyuki Shimizu3, Yasuo Yamamoto3, Yuta Saito4 (1. Keio University, 2. Institute of Science Tokyo, 3. LY Corporation, 4. Cornell University, 5. Yale University)

Keywords:

Ranking,Off-Policy Learning

本研究では、ランキング方策に関するオフ方策学習を対象とする。オフ方策学習とは、過去のデータのみから新たな方策を学習する技術である。ランキング設定では、行動空間がアイテムの順列から構成され極めて巨大になるため、オフ方策学習は特に困難となる。既存手法は、主に方策ベース手法または回帰ベース手法を採用しているが、それぞれ高分散・高バイアスという問題を抱えている。この課題に対処するため、本研究では両者を効果的に統合した新たなオフ方策学習手法を提案する。提案手法はランキング方策を二段階に分解し、第一段階目で上位k個のアクションを選択するポリシーを学習し、第二段階目で残りの下位アクションを決定する方策を学習する。特に第一段階目の学習では、新しい方策勾配推定量を導入する。この推定量は、上位k個のアクションに対してのみ重要度重み付けを行うことで分散を大幅に低減する。人工データ及び実データ実験により、大規模行動空間により既存手法の性能が悪化する設定においても、提案手法がオフ方策学習の性能を大幅に向上させることを示した。