Presentation Information
[2F6-OS-19b-06]Development of an Automatic Text Recognition Workflow for Student Newspaper Page Images
〇Airu Adachi1, Yuki Takahashi, Yuzuki Tsukagoshi1, Ikki Ohmukai1 (1. The University of Tokyo)
Keywords:
Newspaper,Text Recognition,Layout Detection
新聞紙面のテキスト化は歴史学をはじめとする人文社会科学の研究基盤の構築に資するものだが,日本語の新聞紙面は多段組や組み文字といった複雑なレイアウト上の特徴を有しており,文字領域検出と文字認識の精度向上が技術的課題となっている.そこで本研究では,学生新聞である東京大学新聞の2011年の紙面からヒューリスティック手法による学習データを作成し,精度検証を行った.結果として,記事本文の抽出においては高いPrecisionを記録した一方,画像領域の検出においては大幅な検出漏れを起こすことが明らかになった.本研究は,類似したレイアウトを持つ地方新聞や地域新聞などのテキスト化に応用可能であると考えられる.
Comment
To browse or post comments, you must log in.Log in
