講演情報
[2F6-OS-19b-06]学生新聞の紙面画像を対象とした自動テキスト認識ワークフローの開発
〇阿達 藍留1、高橋 祐貴、塚越 柚季1、大向 一輝1 (1. 東京大学)
キーワード:
新聞、文字認識、レイアウト検出
新聞紙面のテキスト化は歴史学をはじめとする人文社会科学の研究基盤の構築に資するものだが,日本語の新聞紙面は多段組や組み文字といった複雑なレイアウト上の特徴を有しており,文字領域検出と文字認識の精度向上が技術的課題となっている.そこで本研究では,学生新聞である東京大学新聞の2011年の紙面からヒューリスティック手法による学習データを作成し,精度検証を行った.結果として,記事本文の抽出においては高いPrecisionを記録した一方,画像領域の検出においては大幅な検出漏れを起こすことが明らかになった.本研究は,類似したレイアウトを持つ地方新聞や地域新聞などのテキスト化に応用可能であると考えられる.
コメント
コメントの閲覧・投稿にはログインが必要です。ログイン
