The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

3:30 PM - 3:45 PM JST(6:30 AM - 6:45 AM UTC)

[2F5-OS-19a-01]Context-Aware Page-Level Image Classification of Multi-Page Invoices Using GIT

〇Sinyu Lai¹, Yutaro Honda¹ (1. Sansan, Inc.)

Keywords:

Document image classification,Page-level classification,Multi-page document,Generative Image-to-text Transformer (GIT),Vision language model

紙文書やPDF文書が電子的に管理されるようになり，請求書などの業務文書自動分類の重要性が高まっている．文書自動分類において，前後文脈を考慮する画像分類技術の応用が期待できるが，既存の文書分類は単一画像を独立に扱う設定が広く用いられており，複数ページ文書の文脈や順序を十分に扱えない．本研究では，Generative Image-to-text Transformer（GIT）の動画キャプショニングの枠組みを応用し，文書画像として請求書の複数ページを同時に入力するEnd-to-End文書画像分類手法を提案する．提案手法では，動画フレームの代わりに請求書を構成する複数ページ画像を入力し，各ページの役割を表す分類ラベル列をテキストとして出力することで，ページ間の文脈および順序関係をモデル内部で一括して扱う．12ページ以下の請求書データを用いた実験の結果，提案手法は入力ページ数の上限（本研究では6ページ）を超えない請求書に対して，単一ページを独立に処理するベースラインよりも高い分類精度を示した．一方で，入力上限を超える請求書では分類精度が低下し，文書の分割が分類性能に影響することが分かった．

Comment

To browse or post comments, you must log in.Log in

Back to Session information