LLM2D
Galvatron:一种高效的自动分布式基础模型訓練系统
Galvatron: An Automatic Distributed System for Efficient Foundation Model Training
作者: Xinyi Liu, Yujie Wang, Shenhan Zhu, Fangcheng Fu, Qingshuo Liu, Guangming Lin, Bin Cui
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21411v1

摘要

arXiv:2504.21411v1 Announce Type: 横跨领域 摘要:Galvatron 是一个用于高效训练大规模基础模型的分布式系统。它通过自动识别最高效的混合策略,克服了选择最优并行策略的复杂性,该策略涵盖了数据并行、张量并行、流水线并行、切片数据并行以及重计算。该系统的架构包括硬件和模型分析的性能分析器、使用决策树和动态规划进行策略优化的搜索引擎,以及高效执行这些策略的运行时。在各种集群上的基准测试显示,Galvatron 的吞吐量优于现有框架。这个开源系统提供了用户友好的接口和详细的文档,使复杂的分布式训练变得可行且高效。Galvatron 的源代码可在 https://github.com/PKU-DAIR/Hetu-Galvatron 获取。