講演情報

[1B-085-PF]選択課題におけるデータの欠測を考慮した共有パラメータQ学習モデル

*島田 大祐1,2、岡 元紀3 (1. 東京都立大学、2. 日本学術振興会、3. ロンドン・スクール・オブ・エコノミクス・アンド・ポリティカル・サイエンス)

キーワード:

強化学習、欠測データ、共有パラメータモデル