講演情報

[2F6-OS-19b-05]大規模視覚言語モデルを用いた候補レコード群による制約付き推論に基づく画像アイテムの同定

〇古賀 理恵1、稲生 剛士1、田谷 文彦1 (1. JFEエンジニアリング株式会社)

キーワード:

大規模言語モデル、マルチモーダル、アイテム同定、光学文字認識

画像内のアイテムを記載されている文字列などの情報から同定するタスクは、既存の管理システムと連携した多様なデータ活用の場面において重要となる。しかしながら、実画像ではアイテムの各項目の表記方法が実運用に適した形で多様化していることから、正解となるアイテム情報との照合が困難であることが多い。本研究では、候補レコード群による制約付き推論(Constrained Inference with Candidate Records: CICR)に基づくアイテム同定手法を提案する。CICRは、大規模視覚言語モデル(LVLM)に対して候補レコード情報をプロンプトとして与え、推論範囲を候補集合内に限定することで、様々な記載形式に対して頑健な同定を実現する。花卉流通における出荷用段ボール画像を対象に、OCRベースの手法および候補制約を行わないLVLM手法と比較した結果、提案手法は正答率が向上し、とりわけ選択式記述や表記ゆれを含む場合に有効であることが示された。

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン