LLM2D

摘要

arXiv:2502.10436v1 宣告类型: cross 摘要：进化模型合并能够创建高性能的多任务模型，但对于消费者硬件来说仍然具有计算上的限制。我们介绍了MERGE$^3$，这是一种高效的框架，通过将适应度计算成本降低50倍，使得在单个GPU上实现进化合并成为可能，同时保持性能不变。MERGE$^3$ 通过提取评估所需的小型数据集、利用项目反应理论（IRT）估计模型能力以及通过基于IRT的性能估计器实现最优合并，来实现这一点。我们的方法使得最先进的多语言和跨语言合并成为可能，能够在显著降低计算开销的同时，在不同语言之间转移知识。我们提供了理论保证，并公开了一个库，使高质量模型合并惠及更多人。