講演情報
[9B-03]動的量子化レベル選択による高速推論
*佐々木 駿1、川島 英之2 (1. 慶應義塾大学環境情報学部環境情報学科川島研究室、2. 慶應義塾大学環境情報学部)
発表者区分:学生
論文種別:ショートペーパー
インタラクティブ発表:なし
論文種別:ショートペーパー
インタラクティブ発表:なし
キーワード:
自然言語処理、推論高速化、量子化
大規模言語モデル(LLM)は高い性能を発揮しますが、推論コストが高いという課題があります。本研究では、簡単な入力を量子化モデルに、難しい入力を非量子化モデルに割り振る難易度分類器を用いた動的推論手法を提案します。MRPCタスクにおいて、本手法は61.39%の精度と平均推論時間3.98秒を達成し、単一モデル利用と比較してより良いトレードオフを実現しました。これにより、効率的なLLM運用への基盤を築きます。