摘要
arXiv:2502.11895v1 Announce Type: 对跨领域的介绍
摘要:大型语言模型(LLMs)需要大量的资源来进行训练和推理。量化是一种降低模型参数精度的技术,为提高LLM的效率和可持续性提供了有希望的解决方案。虽然后训练量化方法通常能使每个参数实现4-8位精度,最近的研究表明,从零开始训练具有1.58位每权重参数的LLMs可以在保持模型准确性的前提下,大幅度减少推理时的内存需求和能耗。在这里,我们研究了一种量化感知预训练的训练策略,即首先使用16位精度训练模型,然后过渡到1.58位量化感知训练。我们对11个下游任务的结果表明,这种从16位到1.58位的训练策略比完全从零开始的1.58位训练更优,并且使模型更接近于经过16位培训的模型。我们还研究了在过渡点保留优化器状态和逐步引入量化强度的影响——发现这两种技术可以缓解损失突增的幅度,但这些影响也可以通过进一步的训练来弥补。