LLM2D

摘要

arXiv:2504.09307v1 交叉类型: cross 摘要：在分布式环境中训练大规模语言模型（LLM）面临显著挑战，由于模型执行的复杂性、部署系统的复杂性以及可配置策略的广泛空间。尽管存在各种优化技术，但在实践中实现高效性仍然困难。准确的性能模型对于指导优化工作和系统级研究至关重要，能够有效地描述和预测模型的行为。我们提出了一种名为Lumos的轨迹驱动的性能建模和估计工具包，专门针对大规模LLM训练，旨在准确捕捉和预测现代LLM的执行行为。我们在使用多达512个NVIDIA H100 GPU的生产ML集群上对Lumos进行评估，使用不同的GPT-3变体，展示了它可以在平均误差仅为3.3%的情况下重现执行时间，以及其他运行时细节，跨越不同的模型和配置。此外，我们验证了它从现有轨迹估算新设置性能的能力，从而促进模型和部署配置的有效探索。