LLM2D

摘要

arXiv:2504.00661v1 交叉类型: cross 摘要: 基于指令的大型语言模型（LLMs）细调已在各种自然语言处理（NLP）任务中取得了卓越的成功。参数效率细调（PEFT）方法，例如混合LoRA专家模型（MoLE），结合了低秩适应（LoRA）的高效性和专家模型混合（MoE）的灵活性，展示了处理多个下游任务的巨大潜力。然而，现有的MoLE路由机制通常在计算效率和预测准确性之间存在权衡，并且无法充分解决不同Transformer层中的专家选择需求。在本文中，我们提出了一种名为DynMoLE的混合路由策略，该策略根据路由器概率分布的Tsallis熵动态调整专家选择。这种做法减轻了路由器的不确定性，增强了稳定性，并促进了更公平的专家参与，从而加快了收敛速度并提高了模型性能。此外，我们引入了一个基于Tsallis熵的辅助损失，以进一步引导模型减少不确定性并更好地收敛，从而提高训练稳定性和性能。我们在常识推理基准上的广泛实验表明，DynMoLE实现了显著的性能提升，比LoRA提高了9.6%，并超越了最先进的MoLE方法MoLA 2.3%。我们还进行了全面的消融研究，以评估DynMoLE的关键组件的贡献。