講演情報

[4Yin-A-36]世界モデル型マルチエージェント強化学習におけるコミュニケーション戦略の自律的創発

〇亀澤 祐陽1 (1. 電気通信大学)

キーワード:

世界モデル、深層強化学習、コミュニケーション

物理的環境下のマルチエージェント協調において、言語による意思疎通は不可欠である。本研究では、世界モデル(DreamerV3)を用い、物理的行動と発話を統合的に学習することで、協調戦略を自律的に獲得する手法を提案する。具体的には、離散的な発話トークンを「環境への能動的介入」として行動空間に統合し、世界モデル内での想像を通じて、発話が他者の行動を変容させ将来の報酬に寄与するという「社会的因果性」を学習させた。物理的に隔絶された2体が、観測したヒントを伝え合って正解の箱を開ける「Treasure Chest」環境を設計した。実験の結果、通信チャネル(エージェント間の意思疎通のための技術的な経路)を持たないベースラインの成功率が33%に留まったのに対し、提案手法は最大95%を達成した。分析の結果、明示的な教師データなしに視覚情報と発話を結びつける「記号接地」が創発したことが確認された。さらに、エージェントは不完全な発話を物理的な探索行動で補う戦略も獲得した。本研究は、世界モデルが物理的探索とコミュニケーションを相補的に利用し、未知の環境下でもロバストな協調行動を実現し得ることを実証した。