LLM2D
瓶中融合:可微自适应融合 (DAM) 及从平均到自动化的路径
Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation
作者: Thomas Gauthier-Caron, Shamane Siriwardhana, Elliot Stein, Malikeh Ehghaghi, Charles Goddard, Mark McQuade, Jacob Solawetz, Maxime Labonne
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08371v1

摘要

通过合并模型,人工智能系统可以结合不同语言模型的独特优势,在无需大量重新训练的情况下实现多种能力的平衡。然而,由于训练方法和微调的差异,集成过程可能很复杂,通常需要专门的知识和反复改进。本文探讨了跨复杂度范围的模型合并技术,考察了进化策略等自动化方法与 DARE、TIES-Merging 等超参数驱动方法以及模型汤等更简单方法相比的表现。此外,我们还介绍了可微自适应合并 (DAM),这是一种高效的自适应合并方法,作为进化合并的替代方案,通过缩放系数优化模型集成,最大限度地减少计算需求。我们的研究结果表明,即使是像模型汤这样的简单平均方法,在模型相似度较高的​​情况下也能表现出竞争力,突出了每种技术的独特优势和局限性。我们在 GitHub 上开源了 DAM,包括实现代码和实验流程:https://github.com/arcee-ai/DAM。