Presentation Information
[15a-M_123-9]ReRAM Mapping Method Based on Bit-Level Error Robustness of Quantized KV Cache
〇Shota Suzuki1, Naoko Misawa1, Chihiro Matsui1, Ken Takeuchi1 (1.Univ. Tokyo)
Keywords:
LLM,KV cache,ReRAM
LLMの推論におけるメモリ面積を削減するため,量子化されたKVキャッシュをReRAMへ最適に配置する手法を提案する.MLC ReRAMは高い面積密度を持つが,電流値のゆらぎによる読み出しエラーが推論精度に悪影響を及ぼす.本研究では,量子化データのビット要素のエラー耐性を解析し,耐性の低いビットをSLC ReRAM,耐性の高いビットをMLC ReRAMに格納するマッピング手法を提案する.
