The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[4Yin-A-38]Bottom-Up Interpretation of Language Model Training Dynamics via Loss Curve Clustering

〇Koshiro Aoki^1,2, Masaru Isonuma^2,3,4, Yusuke Oda², Hirokazu Kiyomaru², Takashi Kodama², Chaoran Liu², Yohei Oseki^4,2, Yusuke Miyao^4,2, Daisuke Kawahara^1,2 (1. Waseda University, 2. NII LLMC, 3. Tohoku University, 4. Univ. of Tokyo)

Keywords:

Training Dynamics,Pre-training,Learning Domain,Loss Curve,Large Language Model

大規模言語モデルの事前学習では，コーパス全体の平均損失は徐々に減少する一方，個々の事例はドメインによって異なる訓練ダイナミクスを示す．既存の訓練ダイナミクスの解析は，特定のタスクを事前に定めるトップダウンなアプローチか，勾配を用いる計算コストの高い手法が主であった．本研究では，コーパス内の各事例の損失曲線を非負値行列因子分解（NMF）により分解することで，異なる訓練ダイナミクスを持つ学習ドメインをボトムアップかつ軽量に発見することを試みる．Pythia-70mの事前学習チェックポイントを用いた実験により，コード，数学，繰り返しパターンなどの解釈可能な学習ドメインが得られることを示す．

Comment

To browse or post comments, you must log in.Log in

Back to Session information