摘要
基于指令的数据集对预训练大型语言模型 (LLM) 的对齐至关重要,这对于创建反映人类偏好的微调模型至关重要。最近涌现出越来越多的基于对齐的微调算法和基准,推动了对预训练LLM有效对齐的努力,以确保开源和闭源LLM都能给出有用、无害和诚实的答案。本文通过开发一种名为 $H^3$Fusion 的对齐融合方法来解决这个问题,该方法具有三个独特的特点。首先,$H^3$Fusion 整合多个单独对齐的LLM,以创建一个最终的微调对齐模型,其能力超越单个模型,通过促进有用、无害、诚实的融合来实现强大的对齐。其次,$H^3$Fusion 分两步利用专家混合 (MoE) 方法。我们首先在对齐融合过程中冻结每个单独模型的多头注意力权重,同时调整 FFN 层。然后,我们根据输入指令的类型将对齐的模型权重与专家路由器合并,并动态选择最适合生成输出响应的专家子集。最后,我们通过引入门控损失和正则化项来提高生成的 $H^3$Fusion 模型的性能。前者惩罚专家路由器的选择错误,后者在微调过程中调节专家权重的漂移,并通过引导专家上的激活来动态调整生成的模型的融合行为。在三个基准数据集上的大量评估表明,从两个方面来看,$H^3$Fusion 更有用、危害更小且更诚实:它比每个单独对齐的模型提高了 11.37%,并且与最先进的LLM集成方法相比,它提供了更强的鲁棒性,提高了 13.77%。代码可在 github.com/sftekin/h3fusion 获取。