LLM2D

摘要

arXiv:2504.11765v1 公告类型: 新摘要: 随着输入上下文长度和模型规模的不断增长，近期的大规模语言模型（LLMs）面临着不断增加的推理延迟。特别是检索增强生成（RAG）技术，通过引入外部知识来增强LLM的响应，通过显著增加输入令牌的数量恶化了这一问题。这种令牌长度的扩展导致了计算开销的大幅增加，尤其是在预填充阶段，导致了更长的首个令牌时间（TTFT）。为了解决这一问题，本文提出了一种方法，通过利用基于磁盘的键值（KV）缓存来减轻预填充阶段的计算负担，从而减少TTFT。我们还介绍了一种名为Shared RAG-DCache的基于磁盘的共享键值缓存管理系统，适用于多实例LLM RAG服务环境。该系统结合了最优的系统配置，能够在给定的资源约束下提高吞吐量和降低延迟。Shared RAG-DCache利用了RAG中与用户查询相关的文档以及LLM推理服务中的排队延迟。它会主动为与查询相关的文档生成并存储磁盘KV缓存，并在多个LLM实例之间共享这些缓存，以提高推理性能。在单个配备了2个GPU和1个CPU的主机上进行的实验中，Shared RAG-DCache在资源配置不同的情况下，实现了15~71%的吞吐量提升，并且将延迟最多减少了12~65%。