LLM2D

摘要

arXiv:2410.01497v2 宣宣告类型: 替换交叉摘要： recent advancements in Large Language Models (LLMs) 已在多样化的任务中实现了稳健的表现，但对于特定领域进行微调仍然消耗大量资源。Parameter-Efficient Fine-Tuning (PEFT) 方法，如 Low-Rank Adaptation (LoRA)，通过微调一小部分参数来解决这一挑战。然而，现有方法在融合多个 LoRAs 时缺乏基于上下文输入的动态融合，且经常由于标记级别的操作增加推理时间。我们提出了一种名为 DLP-LoRA 的动态轻量级插件，该插件仅使用一个包含500万个参数的迷你MLP模块，在句子级别使用 top-p 取样策略动态融合多个 LoRAs。这种方法通过利用并行计算将推理时间减少到单个 LoRA 推理时间的两倍以内。在包括多项选择题和问答在内的26项任务的评估中，DLP-LoRA 在多项选择数据集上实现了92.34%的平均准确率，并在问答数据集上显著提高了 BLEU 和 ROUGE 分数，在综合任务设置中超越了不同的 LLM 主干模型。DLP-LoRA 有效平衡了性能和效率，使之成为 LLM 中动态多任务适应的一种实用解决方案。我们的代码可在 https://github.com/MeCuping/DLP-LoRA 获取。