Presentation Information
[1Yin-B-21]A Study on Methods for Detecting Missing Pages Using Scanned Document Images
〇Yuichi Miyamoto1, Kosuke Yoshimura1 (1. Sansan, Inc.)
Keywords:
Document Analysis,Multimodal Large Language Models,Missing page detection
行政機関や企業を中心に、人工知能技術を活用した業務変革が推進されており、業務文書のデジタル管理に対する需要が高まっている。しかし、業務文書のやり取りには依然として紙媒体が広く用いられており、文書をデジタル管理するためには、スキャナやカメラを用いた紙文書のデジタル化が不可欠である。これらのデジタル化工程の多くは手作業に依存しており、スキャン漏れなどの人的誤りが発生しやすいという課題がある。このような誤りを膨大な量の書類の中から自動的に検出する手法が求められている。
本論文では、スキャンされた文書画像を入力とし、画像情報そのものやOCR結果を活用することで、人的誤りに起因するページ欠落を検出する複数のアプローチを提案する。実在する契約書PDFを基に構築した半合成データセットを用いて、提案手法を検出性能および処理速度の観点から評価した。
実験の結果、F値による検出精度の評価においては、汎用大規模言語モデルよりもファインチューニングを施した小規模言語モデルが最も高い性能を示した。一方で、処理速度はルールベース手法が他の手法と比較して一桁以上高速に処理可能であることが明らかとなった。
本論文では、スキャンされた文書画像を入力とし、画像情報そのものやOCR結果を活用することで、人的誤りに起因するページ欠落を検出する複数のアプローチを提案する。実在する契約書PDFを基に構築した半合成データセットを用いて、提案手法を検出性能および処理速度の観点から評価した。
実験の結果、F値による検出精度の評価においては、汎用大規模言語モデルよりもファインチューニングを施した小規模言語モデルが最も高い性能を示した。一方で、処理速度はルールベース手法が他の手法と比較して一桁以上高速に処理可能であることが明らかとなった。
