摘要
arXiv:2504.08791v1 宣布类型: cross
摘要: DeepSeek R1 和 QwQ 32B 的出现已经突破了在家庭设备上运行前沿大规模语言模型 (LLMs) 的性能障碍。虽然消费级硬件变强了,模型量化也得到了改进,但现有的边缘解决方案仍然需要 GPU 集群、大 RAM/VRAM 和高带宽,远远超出了普通家庭集群的处理能力。本文介绍了一种称为 prima.cpp 的分布推理系统,该系统利用 CPU/GPU 的混合、低 RAM/VRAM、Wi-Fi 和跨平台支持,在日常家庭设备上运行 70B 级规模的模型。它使用 mmap 来管理模型权重,并引入了带有数据预取的管道环并行性,以隐藏磁盘加载时间。通过建模计算、通信、磁盘、内存(及其管理行为)以及操作系统之间的异构性,它最优地将模型层分配给每个设备的 CPU 和 GPU,进一步减少了 token 延迟。文中提出了一个称为 Halda 的优雅算法,以解决这个 NP 难分配问题。我们对一个常见的四节点家庭集群进行了评估。在 30B+ 模型上,prima.cpp 的性能优于 llama.cpp、exo 和 dllama,同时内存压力保持在 6% 以下。这使得前沿 30B-70B 模型,如 Llama 3、DeepSeek R1、Qwen 2.5 和 QwQ 可以部署到家庭助手中,从而使先进的人工智能真正地惠及个体。该代码是开源的,并可在 https://github.com/Lizonghang/prima.cpp 获取。