摘要
arXiv:2503.11901v2 宣布类型: replace-cross
摘要:在本研究中,我们分析了Delta系统中的GPU故障,Delta是当前具有超过600 petaflops峰值计算吞吐量的大型AI系统。该系统由配备现代AI加速器的GPU和非GPU节点组成,如NVIDIA A40、A100和H100 GPU。本研究利用了两年半的GPU错误数据。我们评估了GPU硬件组件的可靠性,以确定不同GPU组件的故障易感性及其对GPU和节点可用性的影响。我们测量了GPU硬件的关键传播路径、GPU互连(NVLink)和GPU内存。最后,我们评估了观察到的GPU错误对用户任务的影响。我们的主要发现包括:(i) 与普遍认为的相反,从MTBE(平均故障间隔时间)的角度来看,GPU内存比GPU硬件可靠30多倍。(ii) 新引入的GSP(GPU系统处理器)是最易发生故障的GPU硬件组件。(iii) NVLink错误并不总是导致用户任务失败,我们将其归因于所使用的基础错误检测和重试机制。(iv) 我们展示了多个实例,即来自一个关键GPU硬件组件的硬件错误导致应用程序失败。(v) 通过模拟,我们预测了GPU节点可用性在更大规模上的影响,发现为了应对GPU故障,需要额外提供5-20%的容量。如果GPU可用性提高到99.9%的水平,所需额外提供的容量将减少4倍。