LLM2D

通过LoRA LMM赋能视觉应用程序

Empower Vision Applications with LoRA LMM

作者: Liang Mi, Weijun Wang, Wenming Tu, Qingfeng He, Rui Kong, Xinyu Fang, Yazhu Dong, Yikang Zhang, Yunchun Li, Meng Li, Haipeng Dai, Guihai Chen, Yunxin Liu

发布日期: 4/4/2025

arXiv ID: oai:arXiv.org:2411.00915v5

摘要

arXiv:2411.00915v5 宣告类型: replace-cross 摘要：具有坚实语言和推理能力的大规模多模态模型（LMMs）在各种复杂的视觉任务中取得了显著进展。低秩适应（LoRA）提供了一种有望将外部知识集成到LMMs中的方法，弥补了他们在特定领域任务方面的局限性。然而，现有的LoRA模型服务计算成本极高，导致异常高的延迟。在本文中，我们提出了一种端到端的解决方案，通过LoRA LMMs增强多样化的视觉任务并丰富视觉应用程序。我们的系统VaLoRA通过1)一种基于准确性的LoRA适配器生成方法，生成含有丰富特定领域知识的LoRA适配器以满足特定应用程序的准确度要求；2)一种自适应分块的LoRA适配器批量操作器，高效地计算并发异构LoRA适配器；3)一种灵活的LoRA适配器协调机制，管理和处理应用程序请求与LoRA适配器，以实现最低的平均响应延迟。我们在三个LMMs上的五个流行视觉任务上原型实现VaLoRA。实验结果表明，与原始的LMMs相比，VaLoRA可以在24-62%的准确度上有所提高，与最先进的LoRA模型服务系统相比，可以将延迟降低20-89%。

查看原文下载 PDF