講演情報
[3Yin-A-17]DAGRI SubTask-1 農業PDF文書を対象とした情報抽出データセットの拡張
〇熊倉 梨央1、木村 泰知1、森岡 幹2、小林 暁雄3、大友 将宏3、石原 潤一3、馬場 研太3、桂樹 哲雄3 (1. 小樽商科大学、2. AIREV株式会社、3. 国立研究開発法人 農業・食品産業技術総合研究機構)
キーワード:
農業、情報抽出、データセット
我々はこれまでに,農業分野における標準農業技術文書を対象とした情報抽出タスク(DAGRI SubTask-1 Table IE)を提案してきた。
本タスクでは,各自治体が公開する標準農業技術文書を入力とし,形式変換などの前処理を行わずに配布するとともに,都道府県ごとに定めたタスク指示書に基づき,経営指標および経営類型に関する情報を統一フォーマットへ構造化する。
本研究では,対象自治体を拡張したデータセットを新たに構築し,自治体間で異なるPDF形式や記載構造に対する情報抽出手法の汎化性能を評価可能にすることを目的とする。
その結果,自治体ごとに形式や記載内容が異なる農業PDF文書を網羅した拡張データセットを整備し,実運用を想定した情報抽出手法の汎化性能評価を可能にした。
本タスクでは,各自治体が公開する標準農業技術文書を入力とし,形式変換などの前処理を行わずに配布するとともに,都道府県ごとに定めたタスク指示書に基づき,経営指標および経営類型に関する情報を統一フォーマットへ構造化する。
本研究では,対象自治体を拡張したデータセットを新たに構築し,自治体間で異なるPDF形式や記載構造に対する情報抽出手法の汎化性能を評価可能にすることを目的とする。
その結果,自治体ごとに形式や記載内容が異なる農業PDF文書を網羅した拡張データセットを整備し,実運用を想定した情報抽出手法の汎化性能評価を可能にした。
