LLM2D
通过高效 LoRA 和 KV 缓存管理提高多 LoRA 大语言模型的服务性能
Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management
作者: Hang Zhang, Jiuchen Shi, Yixiao Wang, Quan Chen, Yizhou Shan, Minyi Guo
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.03756v1

摘要

arXiv:2505.03756v1 Announce Type: cross 摘要:多个低秩适配器(Multi-LoRAs)正在成为特定任务大型语言模型(LLM)应用的热门选择。对于multi-LoRA服务,将热门的KV缓存和LoRA适配器缓存到加速器的高带宽内存中可以提高推理性能。然而,现有的multi-LoRA推理系统未能优化服务性能,如首次响应时间(TTFT),忽视了在缓存LoRA和KV时的使用依赖性。因此,我们提出了FASTLIBRA,这是一种多LoRA缓存系统,旨在优化服务性能。FASTLIBRA包括一个依赖感知缓存管理器和一个基于性能的缓存交换器。缓存管理器在推理过程中通过统一的缓存池维护LoRA和KV缓存之间的使用依赖性。缓存交换器根据统一的成本模型在HBM空闲或忙碌时决定将LoRA和KV缓存交换进或换出。实验结果显示,与现有最先进的工作相比,ELORA将TTFT平均减少了63.4%。