LLM2D

摘要

arXiv:2502.04030v1 提示类型: 新摘要：推理能力是大型语言模型（LLMs）的关键前沿领域，但开发这些能力需要大量的专有数据集和计算资源。通过模型融合来高效补充这些能力是一种方法，这提供了一种有前途的替代方案，通过结合多个模型而不重新训练。然而，当前的融合方法依赖于手动设计的合并超参数策略，限制了潜在模型组合的探索，并需要大量的人工努力。我们提出了一种自动化模型融合框架，该框架可通过多保真近似方法减少成本，从而实现细粒度的合并策略探索。我们支持单目标和多目标优化，并引入了两个新的搜索空间：层内融合（LFS）和深度融合（DIS）。在多个基准测试上进行评估，我们发现搜索可以自主找到1）进一步提升单目标性能的合并，即使在模型已经微调过这些任务的情况下，以及2）在不同任务上优化多目标前沿的合并。有效的合并可以在有限的计算资源下找到，例如在不到500次搜索步骤内。