摘要
近年来,大型语言模型 (LLM) 在各种任务中取得了稳健的性能,但针对特定领域微调这些模型仍然需要大量的资源。参数高效微调 (PEFT) 方法,如低秩自适应 (LoRA),通过微调一小部分参数来解决这一挑战。然而,现有的融合多个 LoRA 的方法缺乏基于上下文输入的动态融合,并且由于令牌级操作,通常会增加推理时间。我们提出 DLP-LoRA,一个动态轻量级插件,它使用仅 500 万个参数的迷你 MLP 模块,利用 top-p 采样策略在句子级别动态融合多个 LoRA。这种方法通过利用并行计算,将推理时间减少到单 LoRA 推理的两倍以下。对 26 项任务(包括多项选择题和问答)的评估表明,DLP-LoRA 在多项选择数据集上平均准确率达到 92.34%,在问答数据集上 BLEU 和 ROUGE 分数显着提高,在复合任务设置下优于不同的 LLM 主干。DLP-LoRA 有效地平衡了性能和效率,使其成为 LLM 中动态多任务自适应的实用解决方案。我们的代码可在 https://github.com/MeCuping/DLP-LoRA 获取。