LLM2D

摘要

arXiv:2505.03803v1 声明类型: cross 摘要: RWKV 是一个现代的循环神经网络（RNN）架构，其性能与 Transformer 相当，但在部署到资源受限的设备时仍面临挑战。后训练量化（PTQ），这是一种减少模型大小和推理延迟的关键技术，已在 Transformer 模型中广泛使用。然而，当应用于 RWKV 时，它会遭受显著的性能下降。本文调查并识别了 RWKV 内在特性的两个关键约束:(1) 非线性操作阻碍了基于平滑和旋转量化法的参数融合，引入了额外的计算开销。(2) 均匀分布的权重数量较多，这给基于聚类的量化方法带来了挑战，导致准确性下降。为了解决这些问题，我们提出了 RWKVQuant，这是一种专门为 RWKV 模型设计的 PTQ 框架，包含两种新颖的技术:(1) 一种粗细结合的代理，能够根据权重的均匀性和识别异常值来自适应地选择不同的量化方法，(2) 一种码本优化算法，该算法增强了基于聚类的量化方法在 RWKV 元素乘法中的性能。实验结果显示，RWKVQuant 可以将 RWKV-6-14B 量化为约 3 位，同时保持不到 1% 的准确率损失和 2.14 倍的加速。