LLM2D
面向GPU-based AI系统的CUDA神话破除
Debunking the CUDA Myth Towards GPU-based AI Systems
作者: Yunjae Lee, Juntaek Lim, Jehyeon Bang, Eunyeong Cho, Huijong Jeong, Taesu Kim, Hyungjun Kim, Joonhyung Lee, Jinseop Im, Ranggi Hwang, Se Jung Kwon, Dongsoo Lee, Minsoo Rhu
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2501.00210v2

摘要

arXiv:2501.00210v2 宣告类型: replace-cross 摘要:本文对Intel Gaudi NPUs作为NVIDIA GPU替代品在AI系统设计中的应用进行了全面评估,目前NVIDIA GPU是AI系统设计中的事实标准。首先,我们创建了一套微基准测试来比较Intel Gaudi-2与NVIDIA A100的表现,结果显示Gaudi-2不仅在基础的AI计算、内存和通信操作上取得了竞争力,还在端到端执行几个重要的AI工作负载时也表现出了竞争力。随后,我们通过讨论一些可以在软件层面实施的关键FBGEMM操作和vLLM的优化策略,来评估Gaudi NPU的可编程性,并将其效率与GPU优化的版本进行比较。结果显示,Gaudi-2在能效方面与A100相当,但在软件成熟度方面存在明显的改进空间。总体而言,我们得出结论,如果有效地集成到高级AI框架中,Gaudi NPUs有可能在AI服务器市场挑战NVIDIA GPU的主导地位,尽管还需要进一步改进以与NVIDIA强大的软件生态系统全面竞争。