講演情報

[4Yin-A-08]正則化付き多重選好学習による自動運転VLAモデルの安全制約アライメント

〇李 雲1、トンプソン サイモン2、ジャバンマルディ エーサン1、オルショリッツ アレックス1、塚田 学1 (1. 東京大学、2. 株式会社ティアフォー)

キーワード:

自動運転、Vision-Language-Actionモデル、大規模言語モデル、選好学習、安全性

Vision-Language-Action (VLA) モデルは自動運転において高い推論能力を示す一方で、学習データの不均衡や選好学習における安全な行動の尤度低下(Probability Collapse)により、厳格な安全制約への適合が課題となっている。本研究では、リスク順位に基づく多重選好学習と負の対数尤度(NLL; Negative Log-Likelihood)正則化を統合し、VLAモデルをエキスパートの安全制約に整合させる新たなアライメント手法を提案する。具体的には、(1) Plackett-Luceモデルを用いて複数の行動候補をリスクレベル順に学習し、(2) シーンの危険度に応じて勾配を動的に重み付けし、(3) エキスパートの行動確率を維持する正則化項を導入することで、安全かつ安定した運転行動を実現する。CARLAベンチマークでの評価の結果、提案手法はDriving Score 58.26(ベースライン比 +8.4%)を達成し、Route Completion(完走率)65.9%およびInfraction Penalty(違反回避率)0.891という高い性能を示した。