LLM2D
PRIMA.CPP:在低资源的家庭集群上加速70B规模的LLM推理
PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters
作者: Zonghang Li, Tao Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08791v1

摘要

arXiv:2504.08791v1 宣布类型: cross 摘要: DeepSeek R1 和 QwQ 32B 的出现已经突破了在家庭设备上运行前沿大规模语言模型 (LLMs) 的性能障碍。虽然消费级硬件变强了,模型量化也得到了改进,但现有的边缘解决方案仍然需要 GPU 集群、大 RAM/VRAM 和高带宽,远远超出了普通家庭集群的处理能力。本文介绍了一种称为 prima.cpp 的分布推理系统,该系统利用 CPU/GPU 的混合、低 RAM/VRAM、Wi-Fi 和跨平台支持,在日常家庭设备上运行 70B 级规模的模型。它使用 mmap 来管理模型权重,并引入了带有数据预取的管道环并行性,以隐藏磁盘加载时间。通过建模计算、通信、磁盘、内存(及其管理行为)以及操作系统之间的异构性,它最优地将模型层分配给每个设备的 CPU 和 GPU,进一步减少了 token 延迟。文中提出了一个称为 Halda 的优雅算法,以解决这个 NP 难分配问题。我们对一个常见的四节点家庭集群进行了评估。在 30B+ 模型上,prima.cpp 的性能优于 llama.cpp、exo 和 dllama,同时内存压力保持在 6% 以下。这使得前沿 30B-70B 模型,如 Llama 3、DeepSeek R1、Qwen 2.5 和 QwQ 可以部署到家庭助手中,从而使先进的人工智能真正地惠及个体。该代码是开源的,并可在 https://github.com/Lizonghang/prima.cpp 获取。