講演情報

[1Yin-A-05]大規模空間におけるDoubly Robust推定のエンドツーエンド学習に関する一考察

〇深野 夏生1、楊 添翔1、鈴木 秀男1 (1. 慶應義塾大学)

キーワード:

オフ方策評価、二重に頑健、高次元データ、選択バイアス、反実仮想

マーケティングの運営などの意思決定において,新方策をいきなり対象者へ試すことは顧客満足度低下や安全上のリスクを伴う.この問題を解決するため,新方策の性能を事前推定できるオフ方策評価が提案された.しかし,ECサイトのように選択肢が膨大な環境では,あるユーザに一度も推薦されていない選択肢がほとんどである.このような大規模空間において,IPS・DR推定量では極めて大きい誤差が生じる.その問題に対し,行動特徴量による周辺化で解決した手法としてMIPSが知られている.しかし,MIPSは分散の抑制効果は非常に高い一方で,バイアスは悪化したことが報告されている.また,周辺化方法の決定や行動特徴量の準備など必要なコストは増えている.ここで,本研究では,より少ないコストでMIPSを精度で上回る手法を提案する.具体的には,目的関数構築と微分可能化により誤差逆伝播法でのエンドツーエンド学習が実現された.さらに,大規模空間でのオフ方策評価をより身近なものにした.