講演情報

17:30 〜 17:45

[2F6-OS-19b-01]見切れ文書に対するマルチモーダルモデルのエンティティ抽出

〇中田百科¹、田中孝育² (1. 株式会社リクルート、2. 株式会社山田田中商店)

キーワード：

大規模言語モデル、光学文字認識、マルチモーダル、プロンプトエンジニアリング

光学文字認識（OCR）は，画像からテキストを抽出する技術であり，請求書処理から歴史文書の解読に至るまで幅広いタスクに応用されている．深層学習によりOCRの精度は大幅に向上したものの，実用的なアプリケーションにおいては単に認識されたテキストを出力するだけでは不十分な場合が多い．効率的な情報の利活用のためには，欠落したエンティティの補完が極めて重要となる．近年の大規模言語モデル（LLM），及びマルチモーダルLLM（MLLM）の進展は，こうしたエンティティ抽出に対して有望な解決策となる．一般にOCRの精度は，回転，歪み，テキストの欠損といった劣化に伴い，著しく低下する．既存のMLLMベースのエンティティ抽出研究では，回転や歪みに対する性能の堅牢性が評価されてきたが，テキスト欠損が与える影響については未解明のままである．本研究では，テキストの欠損に対するMLLMのエンティティ抽出性能を調査する．具体的には欠損の度合いを機械的に変化させることで精度に及ぼす影響を分析した．その結果，従来のOCRツールとは異なり，MLLMは周辺テキストの文脈を活用することで，欠損したエンティティを効果的に補完できることを確認した．

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る