講演情報
[5M1-GS-2b-06]日本語大規模言語モデルに対するGRPOのみを用いたSFT非依存RL事後学習の評価日本語LLMに対するR1-Zero likeな事後学習手法の多目的評価
〇辻 直矢1 (1. 角川ドワンゴ学園S高等学校)
キーワード:
強化学習、事後学習、大規模言語モデル
大規模言語モデルに対するSFT(Supervised Fine-Tuning)は、事前学習で獲得したパラメータが大きく変動するというリスクが指摘されており、破滅的忘却や性能劣化を伴う。これに対し事前学習済みモデルに対してSFTを挟まずGroup Relative Policy Optimization(GRPO)を行うアプローチ(GRPO-ZERO)が提案されている。先行研究では英語や中国語中心のモデルでの推論能力向上を目的としているのに対し、本研究では日本語中心のベースモデルに対し、パラメータ変動を抑えつつ日本語での汎用的言語能力を向上させる目的でもGRPO-ZEROが適用可能であることを示す。ELYZA-Tasks100による性能評価に加え、元モデルからの変動を複数の指標(KLダイバージェンス等)で測定したところ、SFTのみを行ったモデルと比較してベースモデルからの分布変動を抑えつつ性能向上で匹敵する結果となった。また、GRPO-ZEROによって生じ得る同一表現の反復等の出力劣化を抑制する条件を明らかにすべくアブレーションを行い、リワードシェーピングとKL制御が重要と裏付けた。
