LLM2D
PIM-AI:一种用于高效大语言模型推理的新型架构
PIM-AI: A Novel Architecture for High-Efficiency LLM Inference
作者: Cristobal Ortega, Yann Falevoz, Renaud Ayrignac
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.17309v1

摘要

大型语言模型 (LLM) 因其先进的语言理解和生成能力已成为各种应用中的重要组成部分。然而,它们的计算和内存需求对传统的硬件架构提出了重大挑战。内存计算 (PIM) 将计算单元直接集成到内存芯片中,为 LLM 推理提供了诸多优势,包括减少数据传输瓶颈和提高能效。本文介绍了 PIM-AI,这是一种新颖的 DDR5/LPDDR5 PIM 架构,旨在无需修改内存控制器或 DDR/LPDDR 内存 PHY 即可进行 LLM 推理。我们开发了一个模拟器来评估 PIM-AI 在各种场景下的性能,并证明其相较于传统架构的显著优势。在云端场景中,根据所使用的 LLM 模型的不同,PIM-AI 将每秒查询数的三年总拥有成本 (TCO) 与最先进的 GPU 相比降低了高达 6.94 倍。在移动场景中,与最先进的移动 SoC 相比,PIM-AI 将每标记的能量消耗降低了 10 到 20 倍,从而使每秒查询数增加了 25% 到 45%,每查询的能量消耗降低了 6.9 倍到 13.4 倍,延长了电池续航时间,并实现了每次充电更多的推理次数。这些结果突出了 PIM-AI 彻底改变 LLM 部署,使其更高效、更可扩展和更可持续的潜力。