摘要
arXiv:2503.19950v1 Announce Type: cross
摘要:我们引入了LogQuant,这是一种针对大规模语言模型(LLM)推理中KV缓存的突破性2位量化技术,能够在大幅节省内存的同时保持出色的性能。先前的方法要么假设后续的令牌更重要,要么试图根据早期注意力模式来预测重要令牌。然而,这两种方法都可能导致性能瓶颈或频繁的误预测。
LogQuant采取了不同的方法。通过应用基于对数的过滤机制,它在整个上下文中选择性地压缩KV缓存,从而在与现有方法相同甚至减少内存占用的情况下实现更好的性能。基准测试结果显示,它在不增加内存消耗的情况下将吞吐量提高25%,并将批处理大小提高60%。对于诸如数学和代码完成等挑战性任务,LogQuant在相同压缩比的情况下提高了40%到200%的准确性,超过了同类技术。LogQuant能无缝集成到如Python的transformers库等流行的推理框架中。实现代码可从https://github.com/Concyclics/LogQuantKV获取。