講演情報

[2Yin-A-39]義務制約における内的価値を考慮した強化学習エージェント

〇中山 陽太郎1、青木 善貴1、赤間 世紀2 (1. BIPROGY株式会社、2. シーリパブリック会社)

キーワード:

自律エージェント、義務論理、内発的価値、強化学習

近年,自律的AIに倫理的行動がどのように達成されうるかを研究対象とする機械倫理の研究が広がっている.本研究ではエージェントが自己の価値評価を内部的に保持し,義務制約が主観報酬として反映される内的報酬期待行為功利の理論の枠組みを提案する.エージェントが義務違反の可能性を自己の報酬構造に組み込み,自己認識的な報酬予測を更新することで,義務遵守と目的達成のバランスを学習する.外的報酬に加えて内的価値に基づく主観的報酬を導入した強化学習実験を行い,内的価値の違いが義務制約下の方策形成や探索行動に与える影響を検証する.義務制約の解釈にエージェントの内的価値報酬を考慮することで,行動および環境における報酬の主観性を考慮した意思決定が可能となる.