LLM2D

摘要

模型融合研究旨在通过组合多个独立模型的权重来聚合它们的知识，从而提升性能。在这项工作中，我们研究了逆问题：探究模型融合是否可以用来减少不必要的知识。我们调查了模型融合在三种场景中的影响：微调语言模型中捷径学习、社会偏见和训练数据记忆。通过涵盖分类和生成任务的实验，我们的分析表明，模型融合期间模型之间共享的知识得到增强，而未共享的知识通常会被遗忘。基于此观察，我们展示了模型融合作为一种去偏工具的潜力，并展示了它在解决与语言模型相关的隐私问题方面的有效性。