摘要
基础语言模型的部署通常包括辅助的安全模型来过滤或分类文本,检测越狱尝试、偏见或有毒输出,或确保主题一致性。这些额外的模型增加了模型推理的复杂性和成本,尤其是因为许多模型也是大型语言模型。为了解决这个问题,我们探索了无训练模型合并技术,将这些模型合并成一个单一的、多功能的模型。我们提出了异构多类模型合并 (HM3) 作为一种简单技术,用于合并具有异构标签空间的多类分类器。与 LoRA 等参数高效微调技术不同,LoRA 需要大量训练,并在推理过程中增加复杂性,最近的进展允许模型以无训练的方式合并。我们报告了合并基于 BERT 的安全模型的有希望的结果,其中一些模型的平均 F1 分数高于源模型,同时推理时间减少了 44%。我们引入了自合并来评估任务向量密度降低的影响,发现表现较差的仇恨言论分类器从自合并中受益,而表现较好的分类器则没有,这引发了关于使用任务向量缩减进行模型调优的疑问。