Presentation Information

[4L5-GS-1b-01]A More Accurate Algorithm Comparison through A/B Testing using Offline Evaluation Methods

〇Koki Konishi1, Masataka Ushiku1, Yuta Saito2 (1. Hakuhodo DY Holdings, Inc., 2. Cornell University)

Keywords:

A/B Testing,Off-Policy Evaluation

A/BテストはWebサービスにおけるよりよいアルゴリズムの選択手法のゴールドスタンダードと考えられている.一方,実験コストの低さからオフライン評価が代替手段として注目されているが,オフライン評価の推定精度はA/Bテストよりも低く,最終的な判断はA/Bテストで行われることが多い.このような従来の理解に反して我々はA/Bテストがオフライン評価より選択誤り率が高くなる現象を示す.これはA/Bテストで用いる標本平均推定量が正の相関を持たないことに起因する.この正の相関は,真に優れた/劣ったアルゴリズムを過小/過大評価してしまう致命的な選択誤りを低減する.一方オフライン評価は複数のアルゴリズムの性能推定と比較に同一のデータを使用するため,正の相関が副次的に生じる.我々はこの事実に着目し,A/Bテストを改善する新たな推定量を提案する.提案手法の核心は仮想的な中間アルゴリズムを導入しアルゴリズムA,Bの性能差を段階的に推定することにある.これにより各段階でオフライン評価を用いて選択誤りを抑制する.実世界データの実験において,提案推定量が従来のA/Bテストの半分のサンプルサイズで同程度の選択誤り率を達成できることを確認する.