The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[5Yin-A-10]Efficient Offline Learning of Ranking Policies via Top-k Policy Decomposition

Ren Kishimoto², 〇Koichi Tanaka¹, Haruka Kiyohara⁴, Yusuke Narita⁵, Nobuyuki Shimizu³, Yasuo Yamamoto³, Yuta Saito⁴ (1. Keio University, 2. Institute of Science Tokyo, 3. LY Corporation, 4. Cornell University, 5. Yale University)

Keywords:

Ranking,Off-Policy Learning

本研究では、ランキング方策に関するオフ方策学習を対象とする。オフ方策学習とは、過去のデータのみから新たな方策を学習する技術である。ランキング設定では、行動空間がアイテムの順列から構成され極めて巨大になるため、オフ方策学習は特に困難となる。既存手法は、主に方策ベース手法または回帰ベース手法を採用しているが、それぞれ高分散・高バイアスという問題を抱えている。この課題に対処するため、本研究では両者を効果的に統合した新たなオフ方策学習手法を提案する。提案手法はランキング方策を二段階に分解し、第一段階目で上位k個のアクションを選択するポリシーを学習し、第二段階目で残りの下位アクションを決定する方策を学習する。特に第一段階目の学習では、新しい方策勾配推定量を導入する。この推定量は、上位k個のアクションに対してのみ重要度重み付けを行うことで分散を大幅に低減する。人工データ及び実データ実験により、大規模行動空間により既存手法の性能が悪化する設定においても、提案手法がオフ方策学習の性能を大幅に向上させることを示した。

Comment

To browse or post comments, you must log in.Log in

Back to Session information