LLM2D

压缩后再提供：以少量开销提供数千个LoRA适配器

Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead

作者: Rickard Br\"uel-Gabrielsson, Jiacheng Zhu, Onkar Bhardwaj, Leshem Choshen, Kristjan Greenewald, Mikhail Yurochkin, Justin Solomon

发布日期: 2/4/2025

arXiv ID: oai:arXiv.org:2407.00066v3

摘要

arXiv:2407.00066v3 宣告类型: replace-cross 摘要：用低秩适应（LoRAs）微调大语言模型（LLMs）已成为一种常见的做法，通常会产生许多相同的LLM副本，仅在LoRA更新上有所不同。这一范式为服务于每个查询都涉及不同LoRA的实时响应系统的实施带来了挑战。先前的工作优化了此类系统的设计，但仍需要连续加载和卸载LoRAs，因为在GPU内存中存储成千上万个LoRAs是不可行的。为缓解这一问题，我们研究了在服务于LoRAs时压缩的有效性。我们提出了一种方法，将LoRAs联合压缩到共享基配对特定于LoRA的缩放矩阵中。我们将算法扩展为学习可以进行联合压缩的LoRA集群，从而使它能够平滑地扩展到大规模LoRA集合。我们的实验使用多达1000个LoRAs表明，压缩的LoRAs在现实场景中能够保持性能，同时在涉及超过一千个LoRAs的情况下提供重大的吞吐量提升，保持单个LoRA性能的80%以上的吞吐量。

查看原文下载 PDF