講演情報
[9B-01]Attentionスコアの分布類似性を用いた大規模言語モデルの動作異効率化および省メモリ化
*谷口 令1、肖 川1,3、小山田 昌史2、董 于洋2、鬼塚 真1 (1. 大阪大学大学院情報科学研究科、2. 日本電気、3. 名古屋大学)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
LLM、効率化、Transformer、Attention、省メモリ
Transformer-Decoderをベースとした大規模言語モデルは、文脈理解・回答における精度の高さから活用が広がっている。近年では映画の脚本や小説、複数の社内資料などを入力として要約やQAタスクを行わせる長文入力への需要が高まっているが、自己注意処理における計算量が入力長の2乗に比例すること、KVキャッシュのサイズが入力長に比例するという理由により、入力長に対して制限が存在する。自己注意処理の高速化・省メモリ化手法として、全てのトークンを利用する代わりに厳選して保存・利用する、クエリに類似したキーのみを利用するといった手法が提案されているが、これらは各ヘッドにおいて生成時に別途計算処理を行う必要があり得られる効果は限定的である。本研究ではTransformer内の各レイヤ・各ヘッドについて注意スコアの分布を調査し、同一レイヤにおいてスコアを共有できるヘッドが存在すること、また各レイヤについてスコアが大きなトークンが共通していることを明らかにした。これを元に自己注意処理の効率化とKVキャッシュの削減を行い、削減前と比較してベンチマークにおける精度低下が限定的であることを確認した。