講演情報

[3Yin-A-13]合成データで学習した軽量VLMと制約付きデコーディングによる日本語ナンバープレート認識

〇新庄 康太1、隅山 慎1、吉澤 真太郎1 (1. トヨタ自動車株式会社)

キーワード:

ナンバープレート認識、視覚言語モデル、コンピュータビジョン

日本語ナンバープレート認識は,形式の複雑さとデータ取得の困難さから難易度が高い.本研究では,軽量な視覚言語モデル(VLM)を合成データで教師ありファインチューニング(SFT)し,制約付きデコーディングにより出力形式を統制するナンバープレート認識手法を提案する.トヨタ自動車元町工場で撮影した動画から切り出した103枚の実画像で評価した結果,SFTにより完全一致率が10.2%から79.6%に向上し,4bit量子化によりVRAM使用量を67%削減しつつ精度を維持した.さらに制約付きデコーディングにより完全一致率を85.4%まで向上させた.