講演情報

[4Yin-A-38]損失曲線のクラスタリングによる言語モデルの訓練ダイナミクスのボトムアップな解釈

〇青木 洸士郎1,2、磯沼 大2,3,4、小田 悠介2、清丸 寛一2、児玉 貴志2、劉 超然2、大関 洋平4,2、宮尾 祐介4,2、河原 大輔1,2 (1. 早稲田大学、2. NII LLMC、3. 東北大学、4. 東京大学)

キーワード:

訓練ダイナミクス、事前学習、学習ドメイン、損失曲線、大規模言語モデル

大規模言語モデルの事前学習では,コーパス全体の平均損失は徐々に減少する一方,個々の事例はドメインによって異なる訓練ダイナミクスを示す.既存の訓練ダイナミクスの解析は,特定のタスクを事前に定めるトップダウンなアプローチか,勾配を用いる計算コストの高い手法が主であった.本研究では,コーパス内の各事例の損失曲線を非負値行列因子分解(NMF)により分解することで,異なる訓練ダイナミクスを持つ学習ドメインをボトムアップかつ軽量に発見することを試みる.Pythia-70mの事前学習チェックポイントを用いた実験により,コード,数学,繰り返しパターンなどの解釈可能な学習ドメインが得られることを示す.