Presentation Information

[1F3-OS-10a-06]Collaborative Learning with Humans of Varying Risk Preferences Through Domain Randomization

〇Haruto Sugawara1, Yasunori Akagi2, Takeshi Kurashima2, Hiroyuki Toda1 (1. Yokohama City University, 2. NTT Human Information Laboratories)

Keywords:

Risk Preferences,Cumulative Prospect Theory,Domain Randomization

効果的なHuman Robot Interactionを実現するには,合理性から逸脱する人間のリスク選好をモデル化することが重要である.既存手法であるRisk-Sensitive Theory of Mind(RS-ToM)は,離散的なリスク選好カテゴリに対して事前学習された方策を用いるが,このアプローチは事前に想定していない未知のリスク選好に対して汎化性能が著しく低下する課題を持つ.本研究ではこの課題に対し,学習中にリスク選好パラメータを多様化させるDomain Randomizationの適用を提案し,多様な人間のリスク選好に適応可能な頑健な方策の獲得を図る.具体的には,DORAEMONの制約付きエントロピー最大化を用いてCPTパラメータのBeta分布を動的に最適化し,学習の収束性を保ちながら広範なパラメータ空間を探索する.Risky Overcooked環境での評価実験により,提案手法はRS-ToMが想定していない中間的リスク選好に対して協調性能を大幅に改善することが示された.