The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[1Yin-A-39]Verification of Japanese Pre-training for LayoutLMv3

〇ATSUSHI YANAGISAWA^1,2, Kouta Nakayama², Yusuke Oda², Koichi Akabe⁴, Naoki Okazki^3,2 (1. Kyoto University, 2. National Institute of Informatics, 3. Institute of Science Tokyo, 4. Cierpa and Company)

Keywords:

Multimodal Processing,Language Model

LayoutLMv3 は，文書画像と，画像中の文章およびその位置情報を統合的に扱うマルチモーダルモデルとして高い性能を示しているが，その事前学習は主に英語文書に基づいており，日本語文書への適用は十分に検討されていない．本研究では，日本語トークナイザを用い，インターネットから収集された PDF 文書により事前学習を行う．さらに，JDocQA を用いて日本語文書に対する質問応答能力を評価し，日本語への適用可能性を検証する．

Back to Session information