摘要
arXiv:2502.10436v3 公告类型: replace-cross
摘要:进化模型合并能够创建高性能的多任务模型,但仍然由于计算密集性,在消费者硬件上不可行。我们提出了一种名为MERGE$^3$的有效框架,该框架通过将计算适应度的成本降低50倍,同时保持性能,在单个GPU上使进化合并变得可行。MERGE$^3$ 通过提取用于评估的缩减数据集、使用项目反应理论(IRT)估算模型能力以及通过基于IRT的性能估算器进化最优合并,实现了这一点。我们的方法使得最先进的多语言和跨语言合并成为可能,能够在显著降低计算开销的情况下,跨语言转移知识。我们提供了理论保证并开源了一个库,使高质量模型合并更加普及。