LLM2D

摘要

arXiv:2504.03664v1 Announce Type: cross 摘要：大型语言模型（LLMs）的高内存和计算需求使得它们因受限的GPU内存而难以部署在消费设备上。卸载可以缓解内存限制，但通常会导致GPU利用率低，从而导致推理效率低下。在这项工作中，我们提出了一种名为流水线卸载（PIPO）的新型框架，用于消费设备上的高效推理。PIPO设计了一种细粒度的卸载流水线，结合优化的数据传输和计算，以实现高并发和高效的推理调度。实验结果表明，与最先进的基线相比，PIPO将GPU利用率从不到40%提高到超过90%，并实现了高达3.1倍更高的吞吐量，运行设备为配备6GB内存的RTX3060 GPU的笔记本电脑。