摘要
arXiv:2501.10187v2 通知类型:替换-交叉
摘要:为了满足生成AI工作负载不断增长的需求,GPU设计师一直在努力将更多的计算和内存打包到复杂的且昂贵的单个封装中。然而,由于当前最先进的GPU已经在包装、产出率和散热方面显示出限制,单个GPU和因此AI集群的扩展性存在日益增长的不确定性。我们建议通过高效连接的轻型GPU集群,重新思考AI集群的设计和扩展,轻型GPU具有单个小型Die和更大GPU部分功能。我们认为,最新协封装 optics 进展能够通过高带宽和高效的通信,将AI工作负载分散到许多轻型GPU上。在这篇文章中,我们讨论了轻型GPU在制造成本、爆裂半径、产出率和功率效率方面的主要优势,并探讨了围绕资源管理、工作负载管理、内存管理和网络管理方面的系统机遇和挑战。