摘要
arXiv:2407.00066v3 宣告类型: replace-cross
摘要:用低秩适应(LoRAs)微调大语言模型(LLMs)已成为一种常见的做法,通常会产生许多相同的LLM副本,仅在LoRA更新上有所不同。这一范式为服务于每个查询都涉及不同LoRA的实时响应系统的实施带来了挑战。先前的工作优化了此类系统的设计,但仍需要连续加载和卸载LoRAs,因为在GPU内存中存储成千上万个LoRAs是不可行的。为缓解这一问题,我们研究了在服务于LoRAs时压缩的有效性。我们提出了一种方法,将LoRAs联合压缩到共享基配对特定于LoRA的缩放矩阵中。我们将算法扩展为学习可以进行联合压缩的LoRA集群,从而使它能够平滑地扩展到大规模LoRA集合。我们的实验使用多达1000个LoRAs表明,压缩的LoRAs在现实场景中能够保持性能,同时在涉及超过一千个LoRAs的情况下提供重大的吞吐量提升,保持单个LoRA性能的80%以上的吞吐量。