講演情報

[5F2-GS-10m-02]Self-Refineによる学習データ変換を用いた安定的なドメイン適応

〇伊藤 辰都1、尾崎 令拓2、平野 正徳2、今城 健太郎2、坂地 泰紀1、野田 五十樹1 (1. 北海道大学、2. 株式会社 Preferred Networks)

キーワード:

人工知能、大規模言語モデル、教師ありファインチューニング

大規模言語モデル(LLM)の特定ドメインへの適応には,ドメイン特化データを用いたSupervised Fine-Tuning(SFT)が広く用いられる.しかし,SFTによるドメイン適応は破滅的忘却を引き起こすことが知られている.本研究では,この破滅的忘却の一因が,ドメインデータとモデル分布の乖離による学習の不安定性にあるという仮説を提示する.分布の乖離を負対数尤度(NLL)の観点から捉え,学習データのNLLを事前に低減することで勾配を抑制し,安定したドメイン適応を実現するフレームワークを提案する.NLL低減の手法としてSelf-Refineを採用し,モデル分布に近い表現を維持しつつ,参照回答から作成したチェックリストによるフィードバックでドメイン知識を保持した高品質なデータセット(JaFIn-SR)を構築する.日本語金融ドメインで評価した結果,pfmt-bench-fin-jaでは10段階評価でTurn1最大+0.13の性能向上を達成し,Turn2でもベースモデルと同等以上の性能を維持した.さらに,汎用ベンチマークであるelyza-tasks-100でも性能が向上した.

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン