講演情報
[4Yin-A-44]パラメータ間の距離に基づくLLMの事前学習データの寄与分析
〇西田 悠人1,2、清丸 寛一2、小田 悠介2、児玉 貴志2、劉 超然2、河原 大輔3,2、宮尾 祐介4,2、磯沼 大2,5 (1. 奈良先端科学技術大学院大学、2. 国立情報学研究所 大規模言語モデル研究開発センター、3. 早稲田大学、4. 東京大学、5. 東北大学)
キーワード:
大規模言語モデル、データ帰属、事前学習
大規模言語モデル(LLM)の事前学習における能力獲得の機序を学習データに遡って説明するために,学習データの寄与を定量化する分析が行われてきた.従来の研究では,主に特定のタスク性能への影響に焦点が当てられており,LLMの汎用的な能力の獲得を説明することが困難である.本研究では,データの学習によるパラメータ更新によって学習終了後のパラメータにどれほど近づくかを,パラメータ空間の距離に基づく寄与として定式化し,評価タスクを前提とせずに寄与を推定する手法を提案する.Pythiaを用いた実験では,学習データの寄与とデータの難易度やドメインの関係を分析し,大きな寄与をもつデータの特徴が学習の進行に伴って変化することを示した.
