摘要
arXiv:2504.16112v1 宣告类型: cross
摘要: Transformer基大型语言模型中的注意力层由于其低运算强度和大量的KV缓存内存需求,在当前GPU系统中带来了效率低下。我们提出了一种高带宽处理单元(HPU),这是一种内存密集型协处理器,在大规模批处理的LLM推理过程中增强GPU资源利用。通过卸载内存限制的操作,HPU使GPU能够专注于密集计算任务,从而提高整体效率。此外,作为附加卡,HPU可以扩展以应对由大规模批处理和长序列长度驱动的不断增长的内存需求。在本文中,我们展示了使用基于PCIe的FPGA卡安装在GPU系统上的HPU原型。我们新颖的GPU-HPU异构系统在与仅GPU系统相比时,性能提升高达4.1倍,能效提升高达4.6倍,无需增加GPU数量即可实现扩展能力。