講演情報

[2Yin-B-01]Jagle: 視覚言語モデルのための大規模日本語マルチモーダル事後学習データセットの構築

〇杉浦一瑳^1,2、笹川慶人^4,2、中尾圭佑^4,2、前田航希^6,2、Yin Ziqi²、Yang Zhishen²、栗田修平^3,2、小田悠介²、徳久良子^5,7、河原大輔^4,2岡崎直観^6,2 (1. 京都大学、2. NII LLMC、3. 国立情報学研究所、4. 早稲田大学、5. 愛知工業大学、6. 東京科学大学、7. 理化学研究所)

キーワード：

視覚言語モデル、データセット構築

視覚言語モデルは急速に発展しているが，開発において重要な役割を果たしているのが学習データセットである. しかし，現在公開されている学習データセットは英語中心であり，日本語の大規模かつ幅広いカテゴリで構成されたデータセットは依然として不足している. 本研究では，6カテゴリ，18サブセットで構成された合計約940万事例の大規模日本語マルチモーダル事後学習データセットJagleを構築する. 英語学習データセットFineVisionのみで学習したモデルと，FineVisionとJagleを併用して学習したモデルを比較した結果，Jagleを併用することで英語性能を維持しつつ，日本語性能を大幅に向上できることを確認した. 構築したデータセットは公開する.

セッション詳細へ戻る