講演情報
[3Yin-A-30]損失乖離に基づく適応重み付けによる知識蒸留の忠実性向上
〇三田 雅人1 (1. 株式会社リクルート)
キーワード:
知識蒸留、大規模言語モデル
知識蒸留(Knowledge Distillation;KD)は,強力な教師モデルの能力を軽量な生徒モデルへ転移する有効な手法であるが,推論タスクにおいては両者の能力差(capacity gap)により,生徒が教師分布に従う代わりに事前学習で獲得した表層的パターンへ依存するショートカット学習が生じやすい.本研究では,各学習サンプルを相対的なKD損失の乖離に基づいて重み付けするプラグイン型モジュール Adaptive Z-score Weighting(AZ-Weighting)を提案する.AZ-Weightingは,KD損失の平均と分散を指数移動平均で追跡し,各サンプルの損失をZ-scoreに変換した上で,乖離の大きいサンプルを非線形に増重して,アライメントが困難なケースに学習を集中させる.GSM8Kによる実験の結果,AZ-Weightingは解答精度を維持しつつ,厳密な形式忠実性を向上させることを示す.
