Presentation Information
[3Yin-A-05]Table-Aware Text Segmentation for Masking Sensitive Information in Document Images
〇Takuto Yamamoto1, Hibiki Miyatake2, Shogo Sakaue1, Yamato Okamoto1 (1. CyberAgent, Inc., 2. WEDDING PARK CO., LTD.)
Keywords:
Document Understanding,PII Detection and Redaction
本論文では,大規模言語モデル(LLM)を利用して,文書画像中の特定の文字列をマスキングする秘匿化処理をする際の課題を明らかにし,その解決策を提案する.
画像から文字列を検出する技術では,文字列をどの程度まで結合や分割するかという出力文字列の構成単位が一意に定まらないため,レイアウトが考慮されない文字列の過剰な結合や分割により,過剰マスキングやマスキング漏れが避けられない.
特に領収証や請求書の表構造のような特定のレイアウトを含む文書においては,表内部の隣接するセル間で文字列が結合しやすい.
LLMに文字列を入力してマスキング対象か否か判定させる先行研究では,文書画像から理想的に抽出された文字列の入力を前提とするため,この影響が十分に検討されていない.
そこで本研究では,表構造を考慮した文字列分割を行う前処理によって,マスキング処理に適した出力文字列の構成単位を実現し,秘匿化処理の精度が向上することを実験により示した.
画像から文字列を検出する技術では,文字列をどの程度まで結合や分割するかという出力文字列の構成単位が一意に定まらないため,レイアウトが考慮されない文字列の過剰な結合や分割により,過剰マスキングやマスキング漏れが避けられない.
特に領収証や請求書の表構造のような特定のレイアウトを含む文書においては,表内部の隣接するセル間で文字列が結合しやすい.
LLMに文字列を入力してマスキング対象か否か判定させる先行研究では,文書画像から理想的に抽出された文字列の入力を前提とするため,この影響が十分に検討されていない.
そこで本研究では,表構造を考慮した文字列分割を行う前処理によって,マスキング処理に適した出力文字列の構成単位を実現し,秘匿化処理の精度が向上することを実験により示した.
