LLM2D

摘要

近年来，大型语言模型 (LLM) 在各种任务中取得了稳健的性能，但针对特定领域微调这些模型仍然需要大量的资源。参数高效微调 (PEFT) 方法，如低秩自适应 (LoRA)，通过微调一小部分参数来解决这一挑战。然而，现有的融合多个 LoRA 的方法缺乏基于上下文输入的动态融合，并且由于令牌级操作，通常会增加推理时间。我们提出 DLP-LoRA，一个动态轻量级插件，它使用仅 500 万个参数的迷你 MLP 模块，利用 top-p 采样策略在句子级别动态融合多个 LoRA。这种方法通过利用并行计算，将推理时间减少到单 LoRA 推理的两倍以下。对 26 项任务（包括多项选择题和问答）的评估表明，DLP-LoRA 在多项选择数据集上平均准确率达到 92.34%，在问答数据集上 BLEU 和 ROUGE 分数显着提高，在复合任务设置下优于不同的 LLM 主干。DLP-LoRA 有效地平衡了性能和效率，使其成为 LLM 中动态多任务自适应的实用解决方案。我们的代码可在 https://github.com/MeCuping/DLP-LoRA 获取。