LLM2D

摘要

通过合并模型，人工智能系统可以结合不同语言模型的独特优势，在无需大量重新训练的情况下实现多种能力的平衡。然而，由于训练方法和微调的差异，集成过程可能很复杂，通常需要专门的知识和反复改进。本文探讨了跨复杂度范围的模型合并技术，考察了进化策略等自动化方法与 DARE、TIES-Merging 等超参数驱动方法以及模型汤等更简单方法相比的表现。此外，我们还介绍了可微自适应合并 (DAM)，这是一种高效的自适应合并方法，作为进化合并的替代方案，通过缩放系数优化模型集成，最大限度地减少计算需求。我们的研究结果表明，即使是像模型汤这样的简单平均方法，在模型相似度较高的情况下也能表现出竞争力，突出了每种技术的独特优势和局限性。我们在 GitHub 上开源了 DAM，包括实现代码和实验流程：https://github.com/arcee-ai/DAM。