LLM2D

摘要

arXiv:2502.11895v1 Announce Type: 对跨领域的介绍摘要：大型语言模型（LLMs）需要大量的资源来进行训练和推理。量化是一种降低模型参数精度的技术，为提高LLM的效率和可持续性提供了有希望的解决方案。虽然后训练量化方法通常能使每个参数实现4-8位精度，最近的研究表明，从零开始训练具有1.58位每权重参数的LLMs可以在保持模型准确性的前提下，大幅度减少推理时的内存需求和能耗。在这里，我们研究了一种量化感知预训练的训练策略，即首先使用16位精度训练模型，然后过渡到1.58位量化感知训练。我们对11个下游任务的结果表明，这种从16位到1.58位的训练策略比完全从零开始的1.58位训练更优，并且使模型更接近于经过16位培训的模型。我们还研究了在过渡点保留优化器状态和逐步引入量化强度的影响——发现这两种技术可以缓解损失突增的幅度，但这些影响也可以通过进一步的训练来弥补。