The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[3Yin-A-17]DAGRI SubTask-1: Dataset Expansion for Information Extraction from Agricultural PDF Documents

〇rio kumakura¹, Yasutomo Kimura¹, Tsuyoshi Morioka², akio Kobayashi³, Masahiro Otomo³, Junichi Ishihara³, Kenta Baba³, Tetsuo Katsuragi³ (1. Otaru university of commerce, 2. AIREV, Inc., 3. National Agriculture and Food Research Organization)

Keywords:

agriculture,information extraction,dataset

我々はこれまでに，農業分野における標準農業技術文書を対象とした情報抽出タスク（DAGRI SubTask-1 Table IE）を提案してきた。
本タスクでは，各自治体が公開する標準農業技術文書を入力とし，形式変換などの前処理を行わずに配布するとともに，都道府県ごとに定めたタスク指示書に基づき，経営指標および経営類型に関する情報を統一フォーマットへ構造化する。
本研究では，対象自治体を拡張したデータセットを新たに構築し，自治体間で異なるPDF形式や記載構造に対する情報抽出手法の汎化性能を評価可能にすることを目的とする。
その結果，自治体ごとに形式や記載内容が異なる農業PDF文書を網羅した拡張データセットを整備し，実運用を想定した情報抽出手法の汎化性能評価を可能にした。

Back to Session information