摘要
arXiv:2504.09307v1 交叉类型: cross
摘要:在分布式环境中训练大规模语言模型(LLM)面临显著挑战,由于模型执行的复杂性、部署系统的复杂性以及可配置策略的广泛空间。尽管存在各种优化技术,但在实践中实现高效性仍然困难。准确的性能模型对于指导优化工作和系统级研究至关重要,能够有效地描述和预测模型的行为。我们提出了一种名为Lumos的轨迹驱动的性能建模和估计工具包,专门针对大规模LLM训练,旨在准确捕捉和预测现代LLM的执行行为。我们在使用多达512个NVIDIA H100 GPU的生产ML集群上对Lumos进行评估,使用不同的GPT-3变体,展示了它可以在平均误差仅为3.3%的情况下重现执行时间,以及其他运行时细节,跨越不同的模型和配置。此外,我们验证了它从现有轨迹估算新设置性能的能力,从而促进模型和部署配置的有效探索。