LLM2D

摘要

arXiv:2503.11901v2 宣布类型: replace-cross 摘要：在本研究中，我们分析了Delta系统中的GPU故障，Delta是当前具有超过600 petaflops峰值计算吞吐量的大型AI系统。该系统由配备现代AI加速器的GPU和非GPU节点组成，如NVIDIA A40、A100和H100 GPU。本研究利用了两年半的GPU错误数据。我们评估了GPU硬件组件的可靠性，以确定不同GPU组件的故障易感性及其对GPU和节点可用性的影响。我们测量了GPU硬件的关键传播路径、GPU互连（NVLink）和GPU内存。最后，我们评估了观察到的GPU错误对用户任务的影响。我们的主要发现包括：(i) 与普遍认为的相反，从MTBE（平均故障间隔时间）的角度来看，GPU内存比GPU硬件可靠30多倍。(ii) 新引入的GSP（GPU系统处理器）是最易发生故障的GPU硬件组件。(iii) NVLink错误并不总是导致用户任务失败，我们将其归因于所使用的基础错误检测和重试机制。(iv) 我们展示了多个实例，即来自一个关键GPU硬件组件的硬件错误导致应用程序失败。(v) 通过模拟，我们预测了GPU节点可用性在更大规模上的影响，发现为了应对GPU故障，需要额外提供5-20%的容量。如果GPU可用性提高到99.9%的水平，所需额外提供的容量将减少4倍。