Presentation Information

[4Yin-A-44]Analyzing Training Data Contributions in LLM Pretraining via Parameter-Space Distance

〇Yuto Nishida1,2, Hirokazu Kiyomaru2, Yusuke Oda2, Takashi Kodama2, Chaoran Liu2, Daisuke Kawahara3,2, Yusuke Miyao4,2, Masaru Isonuma2,5 (1. Nara Institute of Science and Technology, 2. Research and Development Center for Large Language Models, National Institute of Informatics, 3. Waseda University, 4. The University of Tokyo, 5. Tohoku University)

Keywords:

Large Language Models,Data Attribution,Pretraining

大規模言語モデル(LLM)の事前学習における能力獲得の機序を学習データに遡って説明するために,学習データの寄与を定量化する分析が行われてきた.従来の研究では,主に特定のタスク性能への影響に焦点が当てられており,LLMの汎用的な能力の獲得を説明することが困難である.本研究では,データの学習によるパラメータ更新によって学習終了後のパラメータにどれほど近づくかを,パラメータ空間の距離に基づく寄与として定式化し,評価タスクを前提とせずに寄与を推定する手法を提案する.Pythiaを用いた実験では,学習データの寄与とデータの難易度やドメインの関係を分析し,大きな寄与をもつデータの特徴が学習の進行に伴って変化することを示した.