LLM2D

摘要

arXiv:2504.05295v1 Announce Type: 横向摘要: 高效训练大型AI模型需要在多个加速器上分配计算，但在梯度同步期间往往会引入显著的通信开销。我们引入了Dion，这是一种通信高效的优化器，它保留了标准分布式训练（例如，DDP、FSDP）的同步语义，同时大幅减少了I/O成本。与常规优化器同步完整梯度矩阵不同，Dion利用本地设备上的正交更新和动量缓冲区，消除了全梯度交换的需要。此外，它还支持一种高效的切分策略，在训练过程中避免重构大型矩阵。