Presentation Information
[2F6-OS-19b-05]Constrained Inference with Candidate Records for Image-Based Item Identification Using Large Vision-Language Models
〇Rie Koga1, Inao Tsuyoshi1, Taya Fumihiko1 (1. JFE Engineering Corporation)
Keywords:
LLM,multimodal,item identification,OCR
画像内のアイテムを記載されている文字列などの情報から同定するタスクは、既存の管理システムと連携した多様なデータ活用の場面において重要となる。しかしながら、実画像ではアイテムの各項目の表記方法が実運用に適した形で多様化していることから、正解となるアイテム情報との照合が困難であることが多い。本研究では、候補レコード群による制約付き推論(Constrained Inference with Candidate Records: CICR)に基づくアイテム同定手法を提案する。CICRは、大規模視覚言語モデル(LVLM)に対して候補レコード情報をプロンプトとして与え、推論範囲を候補集合内に限定することで、様々な記載形式に対して頑健な同定を実現する。花卉流通における出荷用段ボール画像を対象に、OCRベースの手法および候補制約を行わないLVLM手法と比較した結果、提案手法は正答率が向上し、とりわけ選択式記述や表記ゆれを含む場合に有効であることが示された。
Comment
To browse or post comments, you must log in.Log in
