LLM2D

摘要

arXiv:2504.20437v1 类型: cross 摘要: 大型语言模型（LLMs）在自然语言理解与生成方面取得了革命性进展，但在训练过程中面临显著的内存瓶颈。GaLore（梯度低秩投影）通过利用权重梯度的固有低秩结构，解决了这一问题，在不牺牲性能的情况下实现了显著的内存节省。近期的研究进一步从多个方面扩展了GaLore，包括低比特量化和高阶张量结构。然而，GaLore仍然存在一些挑战，如子空间更新所需的SVD计算开销以及与最先进的训练并行化策略（例如FSDP）的集成。在这篇文章中，我们提出了一个高效且可扩展的GaLore框架GaLore 2，该框架解决了这些挑战并整合了近期的进步。此外，我们通过使用多达5000亿个训练标记从头开始预训练Llama 7B，展示了GaLore 2的可扩展性，突显了其在实际预训练场景中的潜在影响。