Presentation Information
[1Yin-A-39]Verification of Japanese Pre-training for LayoutLMv3
〇ATSUSHI YANAGISAWA1,2, Kouta Nakayama2, Yusuke Oda2, Koichi Akabe4, Naoki Okazki3,2 (1. Kyoto University, 2. National Institute of Informatics, 3. Institute of Science Tokyo, 4. Cierpa and Company)
Keywords:
Multimodal Processing,Language Model
LayoutLMv3 は,文書画像と,画像中の文章およびその位置情報を統合的に扱うマルチモーダルモデルとして高い性能を示しているが,その事前学習は主に英語文書に基づいており,日本語文書への適用は十分に検討されていない.本研究では,日本語トークナイザを用い,インターネットから収集された PDF 文書により事前学習を行う.さらに,JDocQA を用いて日本語文書に対する質問応答能力を評価し,日本語への適用可能性を検証する.
