摘要
arXiv:2502.11880v1 Announce Type: cross
摘要:随着BitNet b1.58引领的1位大型语言模型(LLMs)的出现, ternary LLMs(三值LLMs)的研究兴趣得到了激发。尽管如此,针对ternary LLMs的高效边缘推理的研究和实际应用仍然很少见。为了解决这一问题,我们介绍了Bitnet.cpp,这是一个针对BitNet b1.58和ternary LLMs优化的推理系统。鉴于混合精度矩阵乘法(mpGEMM)在ternary LLMs中的推理时间占据了大部分,Bitnet.cpp包含了一个新型的mpGEMM库,以促进每权重少于2位的高效且无损推理。该库有两个核心解决方案:Ternary Lookup Table(TL),解决了之前位级方法的空间效率问题,和带有尺度的Int2(I2_S),确保了无损边缘推理,两者都实现了高速推理。我们的实验结果显示,Bitnet.cpp相比全精度基线在速度上可以提高6.25倍,相比低位基线可以提高2.32倍,在该领域树立了新的基准。此外,在附录中我们将TL扩展至低位LLMs的元素级查找表(ELUT),展示了其理论和实验证据,证明其有巨大的潜力。Bitnet.cpp可以在https://github.com/microsoft/BitNet/tree/paper 公开获取,为其高效和实用的边缘LLMs部署提供了高级解决方案。