Presentation Information

[5F2-GS-10m-02]Stable Domain Adaptation via Self-Refine-Based Training Data Transformation

〇Tatsuto Ito1, Ryota Ozaki2, Masanori Hirano2, Kentaro Imajo2, Hiroki Sakaji1, Itsuki Noda1 (1. Hokkaido University, 2. Preferred Networks, Inc.)

Keywords:

AI,LLM,SFT

大規模言語モデル(LLM)の特定ドメインへの適応には,ドメイン特化データを用いたSupervised Fine-Tuning(SFT)が広く用いられる.しかし,SFTによるドメイン適応は破滅的忘却を引き起こすことが知られている.本研究では,この破滅的忘却の一因が,ドメインデータとモデル分布の乖離による学習の不安定性にあるという仮説を提示する.分布の乖離を負対数尤度(NLL)の観点から捉え,学習データのNLLを事前に低減することで勾配を抑制し,安定したドメイン適応を実現するフレームワークを提案する.NLL低減の手法としてSelf-Refineを採用し,モデル分布に近い表現を維持しつつ,参照回答から作成したチェックリストによるフィードバックでドメイン知識を保持した高品質なデータセット(JaFIn-SR)を構築する.日本語金融ドメインで評価した結果,pfmt-bench-fin-jaでは10段階評価でTurn1最大+0.13の性能向上を達成し,Turn2でもベースモデルと同等以上の性能を維持した.さらに,汎用ベンチマークであるelyza-tasks-100でも性能が向上した.

Comment

To browse or post comments, you must log in.Log in