講演情報

[2Yin-A-37]多様な楽曲視聴の促進のためのシミュレーションベースによる強化学習を用いた自動楽曲プレイリスト生成について音楽配信サービスでの多様な楽曲視聴の促進の研究

〇山内 卓哉1 (1. 山内事務所)

キーワード:

強化学習、音楽推薦システム、ダブルDQN/デュエリングDQN、ユーザモデリング、逐次意思決定

この研究はDouble DQN(Double Deep Q-Network)とDueling DQNアーキテクチャの組み合わせなどのいくつかのモデ ルでの強化学習ベースの音楽推薦システムを提案した。ユーザーの音楽視聴履歴を状態として、次に推薦すべき楽曲を 行動として学習をさせるために、楽曲を視聴するユーザーをモデル化したLSTM ベースのユーザーシミュレータで事前学 習させ、現実的なユーザー応答を生成することでエージェントの学習を安定化させた。当研究では実データまたは決定論 的ユーザーシミュレータの両方に対応させ、推論時に重複回避や多様性ボーナス機能を備えたプレイリスト生成が可能な 環境を構築し性能を評価した.