講演情報
[7F-02]表構造解析の後処理と表機能解析による棒グラフ自動生成手法の改良
*田上 歩夢1、金澤 輝一2、上野 史3、太田 学3 (1. 岡山大学大学院環境生命自然科学研究科、2. 国立情報学研究所コンテンツ科学研究系、3. 岡山大学学術研究院環境生命自然科学学域)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
表構造解析、表機能解析、グラフ自動生成、文書PDF
文書PDFに含まれる表は,Table Question Answering(Table QA)やグラフ生成など,さまざまな応用が期待されている.しかし,表の形式は多様であり,その構造や機能を正確に解析する必要がある.青柳らは,グラフニューラルネットワークを用いた表構造解析手法を提案した.
また我々も,DEIM 2024で表構造情報を活用した棒グラフ生成手法を発表したが,この手法では,表中のサブヘッダがヘッダと隣接していない場合に正しく判別できないという課題があった.
本研究では,青柳らの表構造解析結果に対し,解析誤りを修正する後処理を提案し,ヘッダと隣接していないサブヘッダも正しく判別できるようにする.さらに,改良したサブヘッダ判別処理で得られた表構造およびテキスト情報を活用して棒グラフを生成する.
ICDAR 2013 Table Competitionのテストデータセットを使用した実験では,表構造解析精度を表すセル隣接関係再現性のF値は0.986となり,青柳らの手法を0.1ポイント上回った.また,数値を含む144表を対象に,サブヘッダ判別の結果をChatGPT-4に表を画像として入力して得られた結果と比較した.棒グラフ生成実験では,生成結果の品質を4段階評価した.
また我々も,DEIM 2024で表構造情報を活用した棒グラフ生成手法を発表したが,この手法では,表中のサブヘッダがヘッダと隣接していない場合に正しく判別できないという課題があった.
本研究では,青柳らの表構造解析結果に対し,解析誤りを修正する後処理を提案し,ヘッダと隣接していないサブヘッダも正しく判別できるようにする.さらに,改良したサブヘッダ判別処理で得られた表構造およびテキスト情報を活用して棒グラフを生成する.
ICDAR 2013 Table Competitionのテストデータセットを使用した実験では,表構造解析精度を表すセル隣接関係再現性のF値は0.986となり,青柳らの手法を0.1ポイント上回った.また,数値を含む144表を対象に,サブヘッダ判別の結果をChatGPT-4に表を画像として入力して得られた結果と比較した.棒グラフ生成実験では,生成結果の品質を4段階評価した.