The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

2:55 PM - 3:10 PM JST(5:55 AM - 6:10 AM UTC)

[1F3-OS-10a-06]Collaborative Learning with Humans of Varying Risk Preferences Through Domain Randomization

〇Haruto Sugawara¹, Yasunori Akagi², Takeshi Kurashima², Hiroyuki Toda¹ (1. Yokohama City University, 2. NTT Human Information Laboratories)

Keywords:

Risk Preferences,Cumulative Prospect Theory,Domain Randomization

効果的なHuman Robot Interactionを実現するには，合理性から逸脱する人間のリスク選好をモデル化することが重要である．既存手法であるRisk-Sensitive Theory of Mind（RS-ToM）は，離散的なリスク選好カテゴリに対して事前学習された方策を用いるが，このアプローチは事前に想定していない未知のリスク選好に対して汎化性能が著しく低下する課題を持つ．本研究ではこの課題に対し，学習中にリスク選好パラメータを多様化させるDomain Randomizationの適用を提案し，多様な人間のリスク選好に適応可能な頑健な方策の獲得を図る．具体的には，DORAEMONの制約付きエントロピー最大化を用いてCPTパラメータのBeta分布を動的に最適化し，学習の収束性を保ちながら広範なパラメータ空間を探索する．Risky Overcooked環境での評価実験により，提案手法はRS-ToMが想定していない中間的リスク選好に対して協調性能を大幅に改善することが示された．

Comment

To browse or post comments, you must log in.Log in

Back to Session information