摘要
arXiv:2502.10436v4 宣告类型: replace-cross
摘要:进化模型合并能够创建高性能多任务模型,但对消费级硬件来说仍然是计算上不可行的。我们引入了MERGE$^3$,这是一种高效的框架,通过将适应度计算成本降低50倍来使进化合并能够在单个GPU上实现,同时保持性能。MERGE$^3$通过提取评估用的减少数据集、使用项目反应理论(IRT)估计模型能力、以及使用基于IRT的性能估算器进行进化最优合并来实现这一目标。我们的方法能够实现最先进的多语言和跨语言合并,以显著较低的计算开销在语言之间转移知识。我们提供了理论保证并开源了一个库,使高质量模型合并更加普及。