LLM2D
RAG 动力语言模型中高效多实例推理的共享磁盘 KV 缓存管理
Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11765v1

摘要

arXiv:2504.11765v1 公告类型: 新 摘要: 随着输入上下文长度和模型规模的不断增长,近期的大规模语言模型(LLMs)面临着不断增加的推理延迟。特别是检索增强生成(RAG)技术,通过引入外部知识来增强LLM的响应,通过显著增加输入令牌的数量恶化了这一问题。这种令牌长度的扩展导致了计算开销的大幅增加,尤其是在预填充阶段,导致了更长的首个令牌时间(TTFT)。为了解决这一问题,本文提出了一种方法,通过利用基于磁盘的键值(KV)缓存来减轻预填充阶段的计算负担,从而减少TTFT。我们还介绍了一种名为Shared RAG-DCache的基于磁盘的共享键值缓存管理系统,适用于多实例LLM RAG服务环境。该系统结合了最优的系统配置,能够在给定的资源约束下提高吞吐量和降低延迟。Shared RAG-DCache利用了RAG中与用户查询相关的文档以及LLM推理服务中的排队延迟。它会主动为与查询相关的文档生成并存储磁盘KV缓存,并在多个LLM实例之间共享这些缓存,以提高推理性能。在单个配备了2个GPU和1个CPU的主机上进行的实验中,Shared RAG-DCache在资源配置不同的情况下,实现了15~71%的吞吐量提升,并且将延迟最多减少了12~65%。