Presentation Information
[4Yin-A-38]Bottom-Up Interpretation of Language Model Training Dynamics via Loss Curve Clustering
〇Koshiro Aoki1,2, Masaru Isonuma2,3,4, Yusuke Oda2, Hirokazu Kiyomaru2, Takashi Kodama2, Chaoran Liu2, Yohei Oseki4,2, Yusuke Miyao4,2, Daisuke Kawahara1,2 (1. Waseda University, 2. NII LLMC, 3. Tohoku University, 4. Univ. of Tokyo)
Keywords:
Training Dynamics,Pre-training,Learning Domain,Loss Curve,Large Language Model
大規模言語モデルの事前学習では,コーパス全体の平均損失は徐々に減少する一方,個々の事例はドメインによって異なる訓練ダイナミクスを示す.既存の訓練ダイナミクスの解析は,特定のタスクを事前に定めるトップダウンなアプローチか,勾配を用いる計算コストの高い手法が主であった.本研究では,コーパス内の各事例の損失曲線を非負値行列因子分解(NMF)により分解することで,異なる訓練ダイナミクスを持つ学習ドメインをボトムアップかつ軽量に発見することを試みる.Pythia-70mの事前学習チェックポイントを用いた実験により,コード,数学,繰り返しパターンなどの解釈可能な学習ドメインが得られることを示す.
