LLM2D

摘要

arXiv:2504.08791v1 宣布类型: cross 摘要: DeepSeek R1 和 QwQ 32B 的出现已经突破了在家庭设备上运行前沿大规模语言模型 (LLMs) 的性能障碍。虽然消费级硬件变强了，模型量化也得到了改进，但现有的边缘解决方案仍然需要 GPU 集群、大 RAM/VRAM 和高带宽，远远超出了普通家庭集群的处理能力。本文介绍了一种称为 prima.cpp 的分布推理系统，该系统利用 CPU/GPU 的混合、低 RAM/VRAM、Wi-Fi 和跨平台支持，在日常家庭设备上运行 70B 级规模的模型。它使用 mmap 来管理模型权重，并引入了带有数据预取的管道环并行性，以隐藏磁盘加载时间。通过建模计算、通信、磁盘、内存（及其管理行为）以及操作系统之间的异构性，它最优地将模型层分配给每个设备的 CPU 和 GPU，进一步减少了 token 延迟。文中提出了一个称为 Halda 的优雅算法，以解决这个 NP 难分配问题。我们对一个常见的四节点家庭集群进行了评估。在 30B+ 模型上，prima.cpp 的性能优于 llama.cpp、exo 和 dllama，同时内存压力保持在 6% 以下。这使得前沿 30B-70B 模型，如 Llama 3、DeepSeek R1、Qwen 2.5 和 QwQ 可以部署到家庭助手中，从而使先进的人工智能真正地惠及个体。该代码是开源的，并可在 https://github.com/Lizonghang/prima.cpp 获取。