LLM2D
Home
Arxiv
返回列表
迪翁:一种适用于大型模型的通信高效优化器
Dion: A Communication-Efficient Optimizer for Large Models
作者:
Kwangjun Ahn, Byron Xu
发布日期:
4/8/2025
arXiv ID:
oai:arXiv.org:2504.05295v1
摘要
arXiv:2504.05295v1 Announce Type: 横向 摘要: 高效训练大型AI模型需要在多个加速器上分配计算,但在梯度同步期间往往会引入显著的通信开销。我们引入了Dion,这是一种通信高效的优化器,它保留了标准分布式训练(例如,DDP、FSDP)的同步语义,同时大幅减少了I/O成本。与常规优化器同步完整梯度矩阵不同,Dion利用本地设备上的正交更新和动量缓冲区,消除了全梯度交换的需要。此外,它还支持一种高效的切分策略,在训练过程中避免重构大型矩阵。
查看原文
下载 PDF