LLM2D

摘要

arXiv:2502.08145v1 Cross类型的公告摘要：训练和微调拥有数百亿到数万亿参数的大语言模型（LLMs）需要成千上万个GPU，并且需要一个高度可扩展的软件栈。在本文中，我们介绍了在高度可扩展、便携和开源框架AxoNN中实现的一种新的四维混合并行算法。我们描述了在AxoNN中进行的多种性能优化，包括提高矩阵乘法内核性能、将非阻塞集体操作与计算重叠、以及性能建模以选择性能最优配置。这些优化措施使得GPT风格的变换器模型在Perlmutter（620.1 Petaflop/s）、Frontier（1.381 Exaflop/s）和Alps（1.423 Exaflop/s）上达到了前所未有的可扩展性和峰值吞吐率（bf16）。虽然随着可训练参数数量的增加，大语言模型的能力也在增强，但这也增加了由于训练数据记忆所导致的隐私和版权风险，这可能会在推理过程中外泄敏感或私人信息。我们通过探索“灾难性记忆化”的实验突出了这一规模效应的副作用，模型足够大可以在一个来回中记住训练数据，并提出了一种防止这种情况的方法。作为这项研究的一部分，我们展示了使用AxoNN在Frontier上对一个4055亿参数的LLM进行微调。