LLM2D
大规模语言模型的低精度训练:方法、挑战与机遇
Low-Precision Training of Large Language Models: Methods, Challenges, and Opportunities
作者: Zhiwei Hao, Jianyuan Guo, Li Shen, Yong Luo, Han Hu, Guoxia Wang, Dianhai Yu, Yonggang Wen, Dacheng Tao
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.01043v1

摘要

arXiv:2505.01043v1 通知类型: 交叉学科 摘要:大规模语言模型(LLMs)在各个领域都取得了 impressive 的性能。然而,它们在训练过程中所需的大量硬件资源成为效率和扩展性的一个显著障碍。为应对这一挑战,低精度训练技术被广泛采用,这显著提升了训练效率。尽管这些进展取得了一定成果,但是在低精度训练过程中,各个组成部分(如权重、激活和梯度)可以表示为不同的数值格式,这种多样性导致了低精度训练研究领域的碎片化,使得研究人员难以获得一个统一的整体概述。本文综述了现有的低精度训练方法。为了系统地组织这些方法,我们根据其基础数值格式将它们分为三个主要类别,这种基础数值格式是影响硬件兼容性、计算效率和易读性的关键因素。这些类别包括:(1)定点和基于整数的方法,(2)基于浮点数的方法,以及(3)基于定制格式的方法。此外,我们讨论了量化感知训练方法,它们在前向传播过程中与低精度训练有关键相似之处。最后,我们指出了几个有望推动该领域发展的研究方向。本文讨论的相关论文集合可以在 https://github.com/Hao840/Awesome-Low-Precision-Training 查看。