LLM2D

摘要

深度学习模型的扩展已被证明对提高机器学习 (ML) 模型的智能性非常有效，尤其是对于行业推荐模型和大型语言模型来说。大规模分布式 ML 系统和算法的共同设计（以最大化训练性能）在其成功中起着关键作用。随着规模的扩大，共同设计的超参数数量迅速增长，这给实际找到系统性能最大化的最优设置带来了挑战。在本文中，我们提出了 CubicML，它使用 ML 自动优化大规模分布式 ML 系统的训练性能。在 CubicML 中，我们使用一个 ML 模型作为代理来预测训练性能，以提高搜索效率和性能建模的灵活性。我们证明了 CubicML 可以有效地优化 Meta 内部广告推荐模型（73 亿参数）和大型语言模型（高达 4050 亿参数）的训练速度。