摘要
arXiv:2504.20437v1 类型: cross
摘要: 大型语言模型(LLMs)在自然语言理解与生成方面取得了革命性进展,但在训练过程中面临显著的内存瓶颈。GaLore(梯度低秩投影)通过利用权重梯度的固有低秩结构,解决了这一问题,在不牺牲性能的情况下实现了显著的内存节省。近期的研究进一步从多个方面扩展了GaLore,包括低比特量化和高阶张量结构。然而,GaLore仍然存在一些挑战,如子空间更新所需的SVD计算开销以及与最先进的训练并行化策略(例如FSDP)的集成。在这篇文章中,我们提出了一个高效且可扩展的GaLore框架GaLore 2,该框架解决了这些挑战并整合了近期的进步。此外,我们通过使用多达5000亿个训练标记从头开始预训练Llama 7B,展示了GaLore 2的可扩展性,突显了其在实际预训练场景中的潜在影响。