講演情報

[1Yin-B-64]LLMにおける視覚情報の粒度とコンテキスト補完によるOCR精度向上に関する一研究

〇竹川智貴¹、下斗米貴之¹、星野順哉¹、竹石興紀¹、田中航平¹ (1. 株式会社ヘッドウォータース)

キーワード：

産業応用、画像認識、医療応用

日本の文書のデジタル化において、スマートフォンで撮影された低品質な画像や複雑なレイアウトは、認識精度を低下させる大きな要因となっています。本研究では、大規模言語モデル（LLM）のOCR性能を向上させるため、2つの入力戦略を提案します。一つはレイアウトを考慮した画像分割（Grid Split）、もう一つは外部OCRを利用した文脈補完（Hybrid approach）です。実験の結果、画像を分割して視覚的な解像度を高める手法が、外部エンジンに頼ることなく最高のOCR精度を達成できることが示されました。

セッション詳細へ戻る