Presentation Information
[1Yin-A-34]Post-Training Compression of Mixture-of-Experts Models via Shared Base and Low-Rank Approximation of Residuals
〇Shingo Okayama1, Yohei Kobashi2 (1. Tokyo City Univ., 2. Univ. of Tokyo)
Keywords:
Sparse Mixture-of-Experts,Model Compression,Expert Merging,Low-rank Approximation,Large Language Model
近年,Sparse Mixture-of-Experts(SMoE)を用いた大規模言語モデルは高い性能を示す一方,パラメータ増大に伴うメモリ消費が課題となっている.これに対し,類似Expertを統合し重みを平均化する圧縮手法が提案されている.しかし,単純な平均化はExpertの専門性を喪失させ,特に高圧縮時にモデル性能の崩壊を招く課題がある.そこで本研究では,学習済みSMoEを共有知識と固有知識に分解・再構築する事後圧縮手法を提案する.本手法は,類似するExpertをグループ化してその加重平均を共有基盤とし,各Expert固有の差分情報を特異値分解により低ランクアダプタへ集約する.これにより,メモリ効率を改善しつつ,従来失われていたExpertの固有性を低ランク空間で保持することを目指す.評価実験の結果,本手法は特に高圧縮領域において,従来手法よりも優れたパラメータ効率と知識保持能力を実現することを確認した.
