講演情報

[1Yin-B-64]LLMにおける視覚情報の粒度とコンテキスト補完によるOCR精度向上に関する一研究

〇竹川 智貴1、下斗米 貴之1、星野 順哉1、竹石 興紀1、田中 航平1 (1. 株式会社ヘッドウォータース)

キーワード:

産業応用、画像認識、医療応用

日本の文書のデジタル化において、スマートフォンで撮影された低品質な画像や複雑なレイアウトは、認識精度を低下させる大きな要因となっています。本研究では、大規模言語モデル(LLM)のOCR性能を向上させるため、2つの入力戦略を提案します。一つはレイアウトを考慮した画像分割(Grid Split)、もう一つは外部OCRを利用した文脈補完(Hybrid approach)です。実験の結果、画像を分割して視覚的な解像度を高める手法が、外部エンジンに頼ることなく最高のOCR精度を達成できることが示されました。