講演情報
[5M1-GS-2b-03]回収現金の再利用を可能とするバランス警送問題のための強化学習モデル
〇宮島 龍冴1、近藤 愛1、玉井 秀明1 (1. 沖電気工業株式会社)
キーワード:
組合せ最適化、オペレーションズリサーチ、強化学習
現金警送とは,警備会社が特殊車両を用いて現金を安全に輸送する業務である.本稿では特に,ATMや現金出納機等の装置内現金が枯渇または溢出しないよう,現金を装填・回収する運用を対象とする.従来,この運用では警送拠点で装填用現金を事前に用意し,装置から回収した現金を拠点へ持ち帰る必要があるため,拠点において多大な現金精査コストが発生する.この課題に対して,装置から回収した現金を警送車両上で精査し,別の装置への装填に再利用する「バランス警送」という方式が提案されている.バランス警送において,警送拠点における現金精査コストの最小化を目的とした1日の警送計画最適化問題はNP困難であり,実際の運用で想定される装置数の問題規模でソルバにより厳密解を求めることは困難であるため,現実的な計算時間の近似解法が求められる.そこで本稿では,バランス警送問題をマルコフ決定過程として定式化し,深層強化学習モデルによって短時間で近似解を求める手法を提案する.提案する手法は,ランダムに生成した装置データを用いた数値実験において,ヒューリスティック解法による近似解よりも警送拠点での現金精査コストを抑える解を得ることができた.
