LLM2D

摘要

arXiv:2503.21657v1 Announce Type: cross 摘要：模型合并通过结合多个模型的参数来获取通用能力，而无需额外的数据或训练。先前的方法通过排列不变性将参数对齐到相同的损失盆地从而实现线性模式连通性。本文中，我们提出了模型装配学习（MAL），这是一种模型合并的新范式，通过在开放的模型动物园中迭代集成来自多种模型的不同参数以增强基础模型的能力。与先前需要相同架构的工作不同，MAL 允许合并异构架构和各层的选择性参数。具体来说，基础模型可以从多个预训练模型的不同层中引入参数。我们系统地研究了异构参数合并的条件和基本设置，解决了基础模型和目标模型之间所有可能的层宽不匹配问题。此外，我们建立了关键法则并提供了有效实施MAL 的实用指南。