LLM2D

摘要

arXiv:2504.09064v1 类型: cross 摘要: 我们提出了PQS，这是一种结合了三种技术的方法——剪枝、量化和排序，以在神经网络计算中实现点积的低比特宽累积。在传统的量化点积计算（例如8位量化）中，部分结果被累积到宽累加器（例如32位）中，以避免在累积中间部分和时发生溢出。然而，这种宽累加器会增加内存带宽使用并降低能效。我们展示了在浮点数中进行迭代的N:M剪枝、之后将结果量化到8位（或更少），以及按排序顺序（从小到大）累积部分产品，可以在不使用宽累加器的情况下实现精确且压缩的模型，其点积长度较短。我们设计、分析并实现了PQS算法，以在多种神经网络中消除推断时的累积溢出。我们的方法在多种图像分类任务中实现了与浮点基线模型相当的模型准确性的同时，将累加器的比特宽减少了2.5倍。