LLM2D

摘要

arXiv:2503.19950v1 Announce Type: cross 摘要：我们引入了LogQuant，这是一种针对大规模语言模型（LLM）推理中KV缓存的突破性2位量化技术，能够在大幅节省内存的同时保持出色的性能。先前的方法要么假设后续的令牌更重要，要么试图根据早期注意力模式来预测重要令牌。然而，这两种方法都可能导致性能瓶颈或频繁的误预测。 LogQuant采取了不同的方法。通过应用基于对数的过滤机制，它在整个上下文中选择性地压缩KV缓存，从而在与现有方法相同甚至减少内存占用的情况下实现更好的性能。基准测试结果显示，它在不增加内存消耗的情况下将吞吐量提高25%，并将批处理大小提高60%。对于诸如数学和代码完成等挑战性任务，LogQuant在相同压缩比的情况下提高了40%到200%的准确性，超过了同类技术。LogQuant能无缝集成到如Python的transformers库等流行的推理框架中。实现代码可从https://github.com/Concyclics/LogQuantKV获取。