講演情報
[4Yin-B-44]OCRテキストからの構造化コーパス構築手法とLLM学習への活用
〇藤井 巧朗1、藤武 将人1 (1. 株式会社ファーストアカウンティング)
キーワード:
コーパス構築、OCRテキスト、クリーニング
スキャンされた文書に対するOCRテキストには、仕様書、報告書および証憑などに見られる長文かつ構造化されたテキストが含まれており、大規模言語モデル(LLM)の学習においてWebテキストを補完する重要なデータ資源である。しかし、既存の学習コーパスはWeb中心で構成されており、OCRテキストは誤認識や不安定な文書構造のため十分に活用されてこなかった。本研究では、スキャン文書由来のOCRテキストを高品質な学習コーパスへ変換する二段階パイプラインOCR2Corpus を提案する。本手法は、OCRノイズを除去してMarkdown化する前処理と、文書種別に依存しないMarkdown文書を標準化するRefinerから構成される。RefinerはWikipediaのMarkdownを基に生成したノイズ付きMarkdownとクリーンなMarkdownの対応データを用いて学習される。本手法により、OCRテキストをLLM学習資源として有効に活用できることを示す。
