LLM2D
Characterizing GPU 稳健性及其对 AI/HPC 系统的影响
Characterizing GPU Resilience and Impact on AI/HPC Systems
作者: Shengkun Cui, Archit Patke, Ziheng Chen, Aditya Ranjan, Hung Nguyen, Phuong Cao, Saurabh Jha, Brett Bode, Gregory Bauer, Chandra Narayanaswami, Daby Sow, Catello Di Martino, Zbigniew T. Kalbarczyk, Ravishankar K. Iyer
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.11901v2

摘要

arXiv:2503.11901v2 宣布类型: replace-cross 摘要:在本研究中,我们分析了Delta系统中的GPU故障,Delta是当前具有超过600 petaflops峰值计算吞吐量的大型AI系统。该系统由配备现代AI加速器的GPU和非GPU节点组成,如NVIDIA A40、A100和H100 GPU。本研究利用了两年半的GPU错误数据。我们评估了GPU硬件组件的可靠性,以确定不同GPU组件的故障易感性及其对GPU和节点可用性的影响。我们测量了GPU硬件的关键传播路径、GPU互连(NVLink)和GPU内存。最后,我们评估了观察到的GPU错误对用户任务的影响。我们的主要发现包括:(i) 与普遍认为的相反,从MTBE(平均故障间隔时间)的角度来看,GPU内存比GPU硬件可靠30多倍。(ii) 新引入的GSP(GPU系统处理器)是最易发生故障的GPU硬件组件。(iii) NVLink错误并不总是导致用户任务失败,我们将其归因于所使用的基础错误检测和重试机制。(iv) 我们展示了多个实例,即来自一个关键GPU硬件组件的硬件错误导致应用程序失败。(v) 通过模拟,我们预测了GPU节点可用性在更大规模上的影响,发现为了应对GPU故障,需要额外提供5-20%的容量。如果GPU可用性提高到99.9%的水平,所需额外提供的容量将减少4倍。