講演情報

[4Yin-A-38]損失曲線のクラスタリングによる言語モデルの訓練ダイナミクスのボトムアップな解釈

〇青木洸士郎^1,2、磯沼大^2,3,4、小田悠介²、清丸寛一²、児玉貴志²、劉超然²、大関洋平^4,2、宮尾祐介^4,2、河原大輔^1,2 (1. 早稲田大学、2. NII LLMC、3. 東北大学、4. 東京大学)

キーワード：

訓練ダイナミクス、事前学習、学習ドメイン、損失曲線、大規模言語モデル

大規模言語モデルの事前学習では，コーパス全体の平均損失は徐々に減少する一方，個々の事例はドメインによって異なる訓練ダイナミクスを示す．既存の訓練ダイナミクスの解析は，特定のタスクを事前に定めるトップダウンなアプローチか，勾配を用いる計算コストの高い手法が主であった．本研究では，コーパス内の各事例の損失曲線を非負値行列因子分解（NMF）により分解することで，異なる訓練ダイナミクスを持つ学習ドメインをボトムアップかつ軽量に発見することを試みる．Pythia-70mの事前学習チェックポイントを用いた実験により，コード，数学，繰り返しパターンなどの解釈可能な学習ドメインが得られることを示す．

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る