The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

[1Yin-A-34]Post-Training Compression of Mixture-of-Experts Models via Shared Base and Low-Rank Approximation of Residuals

〇Shingo Okayama¹, Yohei Kobashi² (1. Tokyo City Univ., 2. Univ. of Tokyo)

Keywords:

Sparse Mixture-of-Experts,Model Compression,Expert Merging,Low-rank Approximation,Large Language Model

近年，Sparse Mixture-of-Experts（SMoE）を用いた大規模言語モデルは高い性能を示す一方，パラメータ増大に伴うメモリ消費が課題となっている．これに対し，類似Expertを統合し重みを平均化する圧縮手法が提案されている．しかし，単純な平均化はExpertの専門性を喪失させ，特に高圧縮時にモデル性能の崩壊を招く課題がある．そこで本研究では，学習済みSMoEを共有知識と固有知識に分解・再構築する事後圧縮手法を提案する．本手法は，類似するExpertをグループ化してその加重平均を共有基盤とし，各Expert固有の差分情報を特異値分解により低ランクアダプタへ集約する．これにより，メモリ効率を改善しつつ，従来失われていたExpertの固有性を低ランク空間で保持することを目指す．評価実験の結果，本手法は特に高圧縮領域において，従来手法よりも優れたパラメータ効率と知識保持能力を実現することを確認した．

Comment

To browse or post comments, you must log in.Log in

Back to Session information