LLM2D

摘要

大型语言模型 (LLM) 凭借其卓越的能力正在彻底改变人工智能行业。训练这些模型需要大规模的 GPU 集群和大量的计算时间，这会导致频繁的故障，从而显著增加训练成本。尽管这非常重要，但该领域缺乏评估可靠性的指标。在这项工作中，我们引入了一种名为“训练开销比”（TOR）的新型可靠性指标来评估容错 LLM 训练系统的可靠性。TOR 定义为系统的最佳训练时间与观察到的训练时间的比率，作为用户估计在给定系统上训练 LLM 所需实际时间的实用工具。此外，我们的研究确定了提高可靠性的关键因素，并针对实践中遇到的各种类型的故障提出了 TOR 方程。