摘要
arXiv:2502.10436v1 宣告类型: cross
摘要:进化模型合并能够创建高性能的多任务模型,但对于消费者硬件来说仍然具有计算上的限制。我们介绍了MERGE$^3$,这是一种高效的框架,通过将适应度计算成本降低50倍,使得在单个GPU上实现进化合并成为可能,同时保持性能不变。MERGE$^3$ 通过提取评估所需的小型数据集、利用项目反应理论(IRT)估计模型能力以及通过基于IRT的性能估计器实现最优合并,来实现这一点。我们的方法使得最先进的多语言和跨语言合并成为可能,能够在显著降低计算开销的同时,在不同语言之间转移知识。我们提供了理论保证,并公开了一个库,使高质量模型合并惠及更多人。