摘要
arXiv:2504.03664v1 Announce Type: cross
摘要:大型语言模型(LLMs)的高内存和计算需求使得它们因受限的GPU内存而难以部署在消费设备上。卸载可以缓解内存限制,但通常会导致GPU利用率低,从而导致推理效率低下。在这项工作中,我们提出了一种名为流水线卸载(PIPO)的新型框架,用于消费设备上的高效推理。PIPO设计了一种细粒度的卸载流水线,结合优化的数据传输和计算,以实现高并发和高效的推理调度。实验结果表明,与最先进的基线相比,PIPO将GPU利用率从不到40%提高到超过90%,并实现了高达3.1倍更高的吞吐量,运行设备为配备6GB内存的RTX3060 GPU的笔记本电脑。