講演情報
[1F3-OS-10a-06]Domain Randomization による多様なリスク選好を持つ人間との協調学習
〇菅原 温人1、赤木 康紀2、倉島 健2、戸田 浩之1 (1. 横浜市立大学大学院、2. NTT 人間情報研究所)
キーワード:
リスク選好、累積プロスペクト理論、Domain Randomization
効果的なHuman Robot Interactionを実現するには,合理性から逸脱する人間のリスク選好をモデル化することが重要である.既存手法であるRisk-Sensitive Theory of Mind(RS-ToM)は,離散的なリスク選好カテゴリに対して事前学習された方策を用いるが,このアプローチは事前に想定していない未知のリスク選好に対して汎化性能が著しく低下する課題を持つ.本研究ではこの課題に対し,学習中にリスク選好パラメータを多様化させるDomain Randomizationの適用を提案し,多様な人間のリスク選好に適応可能な頑健な方策の獲得を図る.具体的には,DORAEMONの制約付きエントロピー最大化を用いてCPTパラメータのBeta分布を動的に最適化し,学習の収束性を保ちながら広範なパラメータ空間を探索する.Risky Overcooked環境での評価実験により,提案手法はRS-ToMが想定していない中間的リスク選好に対して協調性能を大幅に改善することが示された.
