講演情報
[2Yin-B-01]Jagle: 視覚言語モデルのための大規模日本語マルチモーダル事後学習データセットの構築
〇杉浦 一瑳1,2、笹川 慶人4,2、中尾 圭佑4,2、前田 航希6,2、Yin Ziqi2、Yang Zhishen2、栗田 修平3,2、小田 悠介2、徳久 良子5,7、河原 大輔4,2岡崎 直観6,2 (1. 京都大学、2. NII LLMC、3. 国立情報学研究所、4. 早稲田大学、5. 愛知工業大学、6. 東京科学大学、7. 理化学研究所)
キーワード:
視覚言語モデル、データセット構築
視覚言語モデルは急速に発展しているが,開発において重要な役割を果たしているのが学習データセットである. しかし,現在公開されている学習データセットは英語中心であり,日本語の大規模かつ幅広いカテゴリで構成されたデータセットは依然として不足している. 本研究では,6カテゴリ,18サブセットで構成された合計約940万事例の大規模日本語マルチモーダル事後学習データセットJagleを構築する. 英語学習データセットFineVisionのみで学習したモデルと,FineVisionとJagleを併用して学習したモデルを比較した結果,Jagleを併用することで英語性能を維持しつつ,日本語性能を大幅に向上できることを確認した. 構築したデータセットは公開する.
