LLM2D

摘要

arXiv:2502.07842v1 公告类型: cross 摘要: 计算在内存中 (Compute-in-memory, CIM) 是实现深度神经网络 (DNNs) 的一种高效方法，但由于模数转换器 (ADC) 的大量开销，特别是在 ADC 精度增加时，其表现不佳。低精度 ADC 可以减少这种开销，但会引入部分和量化误差，从而降低准确性。此外，由于单元限制和更高精度权重的需要，低位权重约束会带来进一步的挑战。虽然已经研究了细粒度的部分和量化来有效降低 ADC 分辨率，但权重粒度限制了整体部分和量化精度的问题仍然没有充分被探索。本文通过在列级对齐权重和部分和量化粒度解决了这些挑战。我们的方法在保持反量化开销的同时提高了准确性，简化了训练并消除了两阶段过程，通过独立的列级缩放因子确保了对内存单元变异的稳健性。我们还提出了一种面向 CIM 的高效卷积框架，用于高效处理细粒度的权重和部分和，该框架包含一种新颖的编排方法和分组卷积。实验结果显示，在 ResNet-20 (CIFAR-10, CIFAR-100) 和 ResNet-18 (ImageNet) 上，与相关工作中表现最佳的工作相比，准确率分别提高了 0.99%、2.69% 和 1.01%。此外，变异分析揭示了我们方法在面对内存单元变异时的稳健性。这些发现突出了我们量化方案在提高准确性和稳健性的同时，保持硬件效率的有效性。我们的代码可在 https://github.com/jiyoonkm/ColumnQuant 获得。