講演情報

[4Yin-B-26]交通信号制御タスクにおけるオフライン強化学習手法の性能分析

〇杉村 真理子1、小林 一郎1 (1. お茶の水女子大学)

キーワード:

オフライン強化学習、交通信号制御

オフライン強化学習は,環境との新たな相互作用を伴わず,過去に収集されたログデータからポリシーを学習できる手法として注目されている.一方で,ログデータの分布に強く依存するという特性から,学習時とは異なる環境条件下における性能劣化,すなわち分布シフトへの脆弱性が課題として挙げられる.このような課題は,現実環境での試行錯誤が困難な交通信号制御タスクにおいても重要である.本研究では,SUMO-RLを用いて2交差点から成る交通ネットワークを構築し,既存オフライン強化学習の性能特性を調査する.まず,既存の強化学習手法を用いて限定的な性能を有する信号制御ポリシーを学習し,そのポリシーを運用することでログデータを収集することにより,オフライン強化学習用のデータセットを作成する.次に,既存のオフライン強化学習手法を用いてログデータからポリシーを学習し,学習時とは異なる条件下での制御性能を比較・評価する.これにより,分布シフトがオフライン強化学習に与える影響について考察する.