Presentation Information
[2Yin-A-26]Inverse Reinforcement Learning for Merging of Autonomous Vehicles
〇Hokuto Kon1, Katsuhide Fujita1 (1. Tokyo University of Agriculture and Technology)
Keywords:
Behavior Modeling,Autonomous Vehicle,Inverse Reinforcement Learning,Feature design
⾃動運転を実現するため,逆強化学習⼿法を⽤いた⼿法が提案されて
いる.逆強化学習とは,⼈間が運転したデータ (エキスパート) の⾏
動を再現するような報酬関数を学習することである.逆強化学習で
は,エキスパートのデータを模倣するため,⼈間らしい運転になるこ
とがメリットである.しかし,これらの研究の多くは直線や曲線の運
転など限定的な状況でしか⾏われていない.また,他の⾞両との相互
作⽤が必要な状況においては⼗分な性能が得られていない.そこで,
本研究では,⾃動運転⾞の合流における逆強化学習⼿法の検討を⾏
う.具体的には,既存の逆強化学習⼿法である最⼤エントロピー逆強
化学習を⽤いて,合流における特徴量と周囲⾞両の特徴量を新たに設
計した.さらに,設計した特徴量の有効性を評価するために,シミュ
レーション環境を構築し,合流における逆強化学習⼿法の性能評価を
⾏う.その結果,最⼤エントロピー逆強化学習を⽤いて設計した特徴
量は,⾃動運転⾞の合流⾏動を適切に表現できることが確認された.
特に,左右レーンの周囲⾞両情報を考慮することで,合流後の挙動に
おけるばらつきが低減し,より安定した運転⾏動モデリングが可能と
なった.
いる.逆強化学習とは,⼈間が運転したデータ (エキスパート) の⾏
動を再現するような報酬関数を学習することである.逆強化学習で
は,エキスパートのデータを模倣するため,⼈間らしい運転になるこ
とがメリットである.しかし,これらの研究の多くは直線や曲線の運
転など限定的な状況でしか⾏われていない.また,他の⾞両との相互
作⽤が必要な状況においては⼗分な性能が得られていない.そこで,
本研究では,⾃動運転⾞の合流における逆強化学習⼿法の検討を⾏
う.具体的には,既存の逆強化学習⼿法である最⼤エントロピー逆強
化学習を⽤いて,合流における特徴量と周囲⾞両の特徴量を新たに設
計した.さらに,設計した特徴量の有効性を評価するために,シミュ
レーション環境を構築し,合流における逆強化学習⼿法の性能評価を
⾏う.その結果,最⼤エントロピー逆強化学習を⽤いて設計した特徴
量は,⾃動運転⾞の合流⾏動を適切に表現できることが確認された.
特に,左右レーンの周囲⾞両情報を考慮することで,合流後の挙動に
おけるばらつきが低減し,より安定した運転⾏動モデリングが可能と
なった.
