LLM2D
AccLLM:通过算法-硬件协同设计加速长上下文LLM推理
AccLLM: Accelerating Long-Context LLM Inference Via Algorithm-Hardware Co-Design
作者: Yanbiao Liang, Huihong Shi, Haikuo Shao, Zhongfeng Wang
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.03745v1

摘要

arXiv:2505.03745v1 交叉公告类型 摘要:近日,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了巨大的成功,推动了它们从云端部署到边缘设备的需求快速增长。然而,在资源受限的边缘设备上部署LLMs带来了重大挑战,包括(1)密集的计算和巨大的模型大小,(2)自动回归生成过程中引入的大量内存和带宽需求,以及(3)处理长序列的有限可扩展性。为了解决这些挑战,我们提出了一种全面加速框架AccLLM,通过算法和硬件协同设计实现高效和快速的长上下文LLM推理。在算法层面,我们整合了(1)剪枝,(2)\(\Lambda\)形注意机制,以及(3)一种创新的W2A8KV4(2比特权重,8比特激活和4比特KV缓存)量化方案,从而有效地减少了内存和带宽需求,同时促进了LLMs的长序列生成。在硬件层面,我们设计了一种专用的基于FPGA的加速器,配备可配置的计算引擎,以有效和灵活地适应我们压缩算法中产生的各种操作,从而将算法创新真正转化为实际的硬件效率。我们在Xilinx Alveo U280 FPGA上验证了AccLLM,展示了与最先进的工作FlightLLM相比,4.07倍的能量效率和2.98倍的吞吐量。