講演情報

[1Yin-A-39]LayoutLMv3の日本語事前学習に関する検証

〇柳澤 篤1,2、中山 功太2、小田 悠介2、赤部 晃一4、岡崎 直観3,2 (1. 京都大学、2. 国立情報学研究所、3. 東京科学大学、4. シェルパ・アンド・カンパニー株式会社)

キーワード:

マルチモーダル処理、言語モデル

LayoutLMv3 は,文書画像と,画像中の文章およびその位置情報を統合的に扱うマルチモーダルモデルとして高い性能を示しているが,その事前学習は主に英語文書に基づいており,日本語文書への適用は十分に検討されていない.本研究では,日本語トークナイザを用い,インターネットから収集された PDF 文書により事前学習を行う.さらに,JDocQA を用いて日本語文書に対する質問応答能力を評価し,日本語への適用可能性を検証する.