LLM2D
大型语言模型训练系统的训练开销比:一项实用的可靠性指标
Training Overhead Ratio: A Practical Reliability Metric for Large Language Model Training Systems
作者: Ning Lu, Qian Xie, Hao Zhang, Wenyi Fang, Yang Zheng, Zheng Hu, Jiantao Ma
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2408.07482v3

摘要

大型语言模型 (LLM) 凭借其卓越的能力正在彻底改变人工智能行业。训练这些模型需要大规模的 GPU 集群和大量的计算时间,这会导致频繁的故障,从而显著增加训练成本。尽管这非常重要,但该领域缺乏评估可靠性的指标。在这项工作中,我们引入了一种名为“训练开销比”(TOR)的新型可靠性指标来评估容错 LLM 训练系统的可靠性。TOR 定义为系统的最佳训练时间与观察到的训练时间的比率,作为用户估计在给定系统上训练 LLM 所需实际时间的实用工具。此外,我们的研究确定了提高可靠性的关键因素,并针对实践中遇到的各种类型的故障提出了 TOR 方程。