講演情報

[4Yin-A-08]正則化付き多重選好学習による自動運転VLAモデルの安全制約アライメント

〇李雲¹、トンプソンサイモン²、ジャバンマルディエーサン¹、オルショリッツアレックス¹、塚田学¹ (1. 東京大学、2. 株式会社ティアフォー)

キーワード：

自動運転、Vision-Language-Actionモデル、大規模言語モデル、選好学習、安全性

Vision-Language-Action (VLA) モデルは自動運転において高い推論能力を示す一方で、学習データの不均衡や選好学習における安全な行動の尤度低下（Probability Collapse）により、厳格な安全制約への適合が課題となっている。本研究では、リスク順位に基づく多重選好学習と負の対数尤度（NLL; Negative Log-Likelihood）正則化を統合し、VLAモデルをエキスパートの安全制約に整合させる新たなアライメント手法を提案する。具体的には、(1) Plackett-Luceモデルを用いて複数の行動候補をリスクレベル順に学習し、(2) シーンの危険度に応じて勾配を動的に重み付けし、(3) エキスパートの行動確率を維持する正則化項を導入することで、安全かつ安定した運転行動を実現する。CARLAベンチマークでの評価の結果、提案手法はDriving Score 58.26（ベースライン比 +8.4%）を達成し、Route Completion（完走率）65.9%およびInfraction Penalty（違反回避率）0.891という高い性能を示した。

セッション詳細へ戻る