摘要
arXiv:2411.00915v5 宣告类型: replace-cross
摘要:具有坚实语言和推理能力的大规模多模态模型(LMMs)在各种复杂的视觉任务中取得了显著进展。低秩适应(LoRA)提供了一种有望将外部知识集成到LMMs中的方法,弥补了他们在特定领域任务方面的局限性。然而,现有的LoRA模型服务计算成本极高,导致异常高的延迟。在本文中,我们提出了一种端到端的解决方案,通过LoRA LMMs增强多样化的视觉任务并丰富视觉应用程序。我们的系统VaLoRA通过1)一种基于准确性的LoRA适配器生成方法,生成含有丰富特定领域知识的LoRA适配器以满足特定应用程序的准确度要求;2)一种自适应分块的LoRA适配器批量操作器,高效地计算并发异构LoRA适配器;3)一种灵活的LoRA适配器协调机制,管理和处理应用程序请求与LoRA适配器,以实现最低的平均响应延迟。我们在三个LMMs上的五个流行视觉任务上原型实现VaLoRA。实验结果表明,与原始的LMMs相比,VaLoRA可以在24-62%的准确度上有所提高,与最先进的LoRA模型服务系统相比,可以将延迟降低20-89%。