LLM2D

摘要

基于指令的数据集对预训练大型语言模型 (LLM) 的对齐至关重要，这对于创建反映人类偏好的微调模型至关重要。最近涌现出越来越多的基于对齐的微调算法和基准，推动了对预训练LLM有效对齐的努力，以确保开源和闭源LLM都能给出有用、无害和诚实的答案。本文通过开发一种名为 $H^3$Fusion 的对齐融合方法来解决这个问题，该方法具有三个独特的特点。首先，$H^3$Fusion 整合多个单独对齐的LLM，以创建一个最终的微调对齐模型，其能力超越单个模型，通过促进有用、无害、诚实的融合来实现强大的对齐。其次，$H^3$Fusion 分两步利用专家混合 (MoE) 方法。我们首先在对齐融合过程中冻结每个单独模型的多头注意力权重，同时调整 FFN 层。然后，我们根据输入指令的类型将对齐的模型权重与专家路由器合并，并动态选择最适合生成输出响应的专家子集。最后，我们通过引入门控损失和正则化项来提高生成的 $H^3$Fusion 模型的性能。前者惩罚专家路由器的选择错误，后者在微调过程中调节专家权重的漂移，并通过引导专家上的激活来动态调整生成的模型的融合行为。在三个基准数据集上的大量评估表明，从两个方面来看，$H^3$Fusion 更有用、危害更小且更诚实：它比每个单独对齐的模型提高了 11.37%，并且与最先进的LLM集成方法相比，它提供了更强的鲁棒性，提高了 13.77%。代码可在 github.com/sftekin/h3fusion 获取。