摘要
arXiv:2505.03756v1 Announce Type: cross
摘要:多个低秩适配器(Multi-LoRAs)正在成为特定任务大型语言模型(LLM)应用的热门选择。对于multi-LoRA服务,将热门的KV缓存和LoRA适配器缓存到加速器的高带宽内存中可以提高推理性能。然而,现有的multi-LoRA推理系统未能优化服务性能,如首次响应时间(TTFT),忽视了在缓存LoRA和KV时的使用依赖性。因此,我们提出了FASTLIBRA,这是一种多LoRA缓存系统,旨在优化服务性能。FASTLIBRA包括一个依赖感知缓存管理器和一个基于性能的缓存交换器。缓存管理器在推理过程中通过统一的缓存池维护LoRA和KV缓存之间的使用依赖性。缓存交换器根据统一的成本模型在HBM空闲或忙碌时决定将LoRA和KV缓存交换进或换出。实验结果显示,与现有最先进的工作相比,ELORA将TTFT平均减少了63.4%。