The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

12:15 PM - 12:30 PM JST(3:15 AM - 3:30 AM UTC)

[5F2-GS-10m-02]Stable Domain Adaptation via Self-Refine-Based Training Data Transformation

〇Tatsuto Ito¹, Ryota Ozaki², Masanori Hirano², Kentaro Imajo², Hiroki Sakaji¹, Itsuki Noda¹ (1. Hokkaido University, 2. Preferred Networks, Inc.)

Keywords:

AI,LLM,SFT

大規模言語モデル（LLM）の特定ドメインへの適応には，ドメイン特化データを用いたSupervised Fine-Tuning（SFT）が広く用いられる．しかし，SFTによるドメイン適応は破滅的忘却を引き起こすことが知られている．本研究では，この破滅的忘却の一因が，ドメインデータとモデル分布の乖離による学習の不安定性にあるという仮説を提示する．分布の乖離を負対数尤度（NLL）の観点から捉え，学習データのNLLを事前に低減することで勾配を抑制し，安定したドメイン適応を実現するフレームワークを提案する．NLL低減の手法としてSelf-Refineを採用し，モデル分布に近い表現を維持しつつ，参照回答から作成したチェックリストによるフィードバックでドメイン知識を保持した高品質なデータセット（JaFIn-SR）を構築する．日本語金融ドメインで評価した結果，pfmt-bench-fin-jaでは10段階評価でTurn1最大+0.13の性能向上を達成し，Turn2でもベースモデルと同等以上の性能を維持した．さらに，汎用ベンチマークであるelyza-tasks-100でも性能が向上した．

Back to Session information