摘要
深度学习模型的扩展已被证明对提高机器学习 (ML) 模型的智能性非常有效,尤其是对于行业推荐模型和大型语言模型来说。大规模分布式 ML 系统和算法的共同设计(以最大化训练性能)在其成功中起着关键作用。随着规模的扩大,共同设计的超参数数量迅速增长,这给实际找到系统性能最大化的最优设置带来了挑战。在本文中,我们提出了 CubicML,它使用 ML 自动优化大规模分布式 ML 系统的训练性能。在 CubicML 中,我们使用一个 ML 模型作为代理来预测训练性能,以提高搜索效率和性能建模的灵活性。我们证明了 CubicML 可以有效地优化 Meta 内部广告推荐模型(73 亿参数)和大型语言模型(高达 4050 亿参数)的训练速度。