Presentation Information
[3Yin-A-17]DAGRI SubTask-1: Dataset Expansion for Information Extraction from Agricultural PDF Documents
〇rio kumakura1, Yasutomo Kimura1, Tsuyoshi Morioka2, akio Kobayashi3, Masahiro Otomo3, Junichi Ishihara3, Kenta Baba3, Tetsuo Katsuragi3 (1. Otaru university of commerce, 2. AIREV, Inc., 3. National Agriculture and Food Research Organization)
Keywords:
agriculture,information extraction,dataset
我々はこれまでに,農業分野における標準農業技術文書を対象とした情報抽出タスク(DAGRI SubTask-1 Table IE)を提案してきた。
本タスクでは,各自治体が公開する標準農業技術文書を入力とし,形式変換などの前処理を行わずに配布するとともに,都道府県ごとに定めたタスク指示書に基づき,経営指標および経営類型に関する情報を統一フォーマットへ構造化する。
本研究では,対象自治体を拡張したデータセットを新たに構築し,自治体間で異なるPDF形式や記載構造に対する情報抽出手法の汎化性能を評価可能にすることを目的とする。
その結果,自治体ごとに形式や記載内容が異なる農業PDF文書を網羅した拡張データセットを整備し,実運用を想定した情報抽出手法の汎化性能評価を可能にした。
本タスクでは,各自治体が公開する標準農業技術文書を入力とし,形式変換などの前処理を行わずに配布するとともに,都道府県ごとに定めたタスク指示書に基づき,経営指標および経営類型に関する情報を統一フォーマットへ構造化する。
本研究では,対象自治体を拡張したデータセットを新たに構築し,自治体間で異なるPDF形式や記載構造に対する情報抽出手法の汎化性能を評価可能にすることを目的とする。
その結果,自治体ごとに形式や記載内容が異なる農業PDF文書を網羅した拡張データセットを整備し,実運用を想定した情報抽出手法の汎化性能評価を可能にした。
