LLM2D

摘要

大型语言模型 (LLM) 因其先进的语言理解和生成能力已成为各种应用中的重要组成部分。然而，它们的计算和内存需求对传统的硬件架构提出了重大挑战。内存计算 (PIM) 将计算单元直接集成到内存芯片中，为 LLM 推理提供了诸多优势，包括减少数据传输瓶颈和提高能效。本文介绍了 PIM-AI，这是一种新颖的 DDR5/LPDDR5 PIM 架构，旨在无需修改内存控制器或 DDR/LPDDR 内存 PHY 即可进行 LLM 推理。我们开发了一个模拟器来评估 PIM-AI 在各种场景下的性能，并证明其相较于传统架构的显著优势。在云端场景中，根据所使用的 LLM 模型的不同，PIM-AI 将每秒查询数的三年总拥有成本 (TCO) 与最先进的 GPU 相比降低了高达 6.94 倍。在移动场景中，与最先进的移动 SoC 相比，PIM-AI 将每标记的能量消耗降低了 10 到 20 倍，从而使每秒查询数增加了 25% 到 45%，每查询的能量消耗降低了 6.9 倍到 13.4 倍，延长了电池续航时间，并实现了每次充电更多的推理次数。这些结果突出了 PIM-AI 彻底改变 LLM 部署，使其更高效、更可扩展和更可持续的潜力。