摘要
arXiv:2504.21411v1 Announce Type: 横跨领域
摘要:Galvatron 是一个用于高效训练大规模基础模型的分布式系统。它通过自动识别最高效的混合策略,克服了选择最优并行策略的复杂性,该策略涵盖了数据并行、张量并行、流水线并行、切片数据并行以及重计算。该系统的架构包括硬件和模型分析的性能分析器、使用决策树和动态规划进行策略优化的搜索引擎,以及高效执行这些策略的运行时。在各种集群上的基准测试显示,Galvatron 的吞吐量优于现有框架。这个开源系统提供了用户友好的接口和详细的文档,使复杂的分布式训练变得可行且高效。Galvatron 的源代码可在 https://github.com/PKU-DAIR/Hetu-Galvatron 获取。