摘要
arXiv:2502.10436v2 宣布类型: replace-cross
摘要:进化模型合并能够创建高性能的多任务模型,但仍然由于计算成本过高而在消费者硬件上不切实际。我们引入了MERGE$^3$,这是一种高效的框架,通过将适应性计算成本降低50倍而仍然保持性能,使得在单个GPU上实现进化合并成为可能。MERGE$^3$ 通过提取用于评估的小数据集、使用项目反应理论(IRT)评估模型能力以及使用基于IRT的性能估计算法演化最佳合并方式来实现这一点。我们的方法使得最先进的多语言和跨语言合并成为可能,并以显著降低的计算成本在不同语言之间转移知识。我们提供了理论保证并开源了一个库,使高质量模型合并更加普及。