摘要
arXiv:2504.00661v1 交叉类型: cross
摘要: 基于指令的大型语言模型(LLMs)细调已在各种自然语言处理(NLP)任务中取得了卓越的成功。参数效率细调(PEFT)方法,例如混合LoRA专家模型(MoLE),结合了低秩适应(LoRA)的高效性和专家模型混合(MoE)的灵活性,展示了处理多个下游任务的巨大潜力。然而,现有的MoLE路由机制通常在计算效率和预测准确性之间存在权衡,并且无法充分解决不同Transformer层中的专家选择需求。在本文中,我们提出了一种名为DynMoLE的混合路由策略,该策略根据路由器概率分布的Tsallis熵动态调整专家选择。这种做法减轻了路由器的不确定性,增强了稳定性,并促进了更公平的专家参与,从而加快了收敛速度并提高了模型性能。此外,我们引入了一个基于Tsallis熵的辅助损失,以进一步引导模型减少不确定性并更好地收敛,从而提高训练稳定性和性能。我们在常识推理基准上的广泛实验表明,DynMoLE实现了显著的性能提升,比LoRA提高了9.6%,并超越了最先进的MoLE方法MoLA 2.3%。我们还进行了全面的消融研究,以评估DynMoLE的关键组件的贡献。