講演情報
[1Yin-B-31]RMT に基づく Transformer ベースモデルの重み行列の特異値解析
西川 晃平1、〇清水 康希1、橋口 博樹1 (1. 東京理科大学)
キーワード:
低ランク近似、大規模言語モデル、ランダム行列理論
Transformer ベースのモデルはパラメータ数が非常に多く,モデル性能の維持に重要なパラメータを同定し,モデルの軽量化を図ることが求められている.これに対し,重み行列をシグナル行列とランダム行列の和とみなし,ランダム行列理論(RMT)に基づく特異値分解を用いた低ランク近似が提案されている.しかし,この手法では,ランダム行列の各要素が同一の分散をもつ確率分布に従うことが仮定されており,この仮定は実際には成り立たない場合が多い.本研究では,ノイズの異分散性を補正した重み行列の特異値分布を解析し,RMT に基づく低ランク近似を提案する.提案法を大規模言語モデルの重み行列に適用した結果,補正を行わない RMT に基づく低ランク近似と比較して,近似精度が向上することが示された.また,一般化性能の評価においても,提案法のほうが性能劣化を抑えられることが示された.
