摘要
arXiv:2502.08145v1 Cross类型的公告
摘要:训练和微调拥有数百亿到数万亿参数的大语言模型(LLMs)需要成千上万个GPU,并且需要一个高度可扩展的软件栈。在本文中,我们介绍了在高度可扩展、便携和开源框架AxoNN中实现的一种新的四维混合并行算法。我们描述了在AxoNN中进行的多种性能优化,包括提高矩阵乘法内核性能、将非阻塞集体操作与计算重叠、以及性能建模以选择性能最优配置。这些优化措施使得GPT风格的变换器模型在Perlmutter(620.1 Petaflop/s)、Frontier(1.381 Exaflop/s)和Alps(1.423 Exaflop/s)上达到了前所未有的可扩展性和峰值吞吐率(bf16)。
虽然随着可训练参数数量的增加,大语言模型的能力也在增强,但这也增加了由于训练数据记忆所导致的隐私和版权风险,这可能会在推理过程中外泄敏感或私人信息。我们通过探索“灾难性记忆化”的实验突出了这一规模效应的副作用,模型足够大可以在一个来回中记住训练数据,并提出了一种防止这种情况的方法。作为这项研究的一部分,我们展示了使用AxoNN在Frontier上对一个4055亿参数的LLM进行微调。