講演情報
[15a-M_123-9]量子化KVキャッシュのビット要素のエラー耐性に基づくReRAMマッピング手法
〇鈴木 渉太1、三澤 奈央子1、松井 千尋1、竹内 健1 (1.東大工)
キーワード:
大規模言語モデル、KVキャッシュ、抵抗変化型メモリ
LLMの推論におけるメモリ面積を削減するため,量子化されたKVキャッシュをReRAMへ最適に配置する手法を提案する.MLC ReRAMは高い面積密度を持つが,電流値のゆらぎによる読み出しエラーが推論精度に悪影響を及ぼす.本研究では,量子化データのビット要素のエラー耐性を解析し,耐性の低いビットをSLC ReRAM,耐性の高いビットをMLC ReRAMに格納するマッピング手法を提案する.
