摘要
arXiv:2502.10940v1 宣告类型: cross
摘要: 大型语言模型(LLMs)正在革新许多科学和工程领域。然而,它们庞大的模型规模在预训练阶段对计算资源提出了极为苛刻的需求。虽然低秩分解可以减少模型参数,但其直接应用于LLM预训练往往会带来不可忽视的性能损失。为应对这一根本挑战,我们提出了CoLA及其内存高效实现CoLA-M。我们利用在模型激活中广泛观察到的低秩结构,在因子化的权重矩阵之间施加非线性变换以减少模型大小、提升模型容量和训练效率。在参数量从6000万到7亿的LLaMA模型上进行的实验表明,CoLA将计算成本降低至$\bf 2\pmb{\times}$,同时将训练吞吐量提高至$\bf 1.86\pmb{\times}$,同时保持全秩水平的性能。进一步地,CoLA-M在不牺牲吞吐量的情况下降低了内存成本,提供了一种在参数、计算和内存效率方面都具有综合优势的预训练方法。生成的LLMs也减小至$\bf 2\pmb{\times}$,这使得在资源受限的平台上具有更快的推理速度和更低的内存成本。