LLM2D

摘要

arXiv:2502.10436v2 宣布类型: replace-cross 摘要：进化模型合并能够创建高性能的多任务模型，但仍然由于计算成本过高而在消费者硬件上不切实际。我们引入了MERGE$^3$，这是一种高效的框架，通过将适应性计算成本降低50倍而仍然保持性能，使得在单个GPU上实现进化合并成为可能。MERGE$^3$ 通过提取用于评估的小数据集、使用项目反应理论（IRT）评估模型能力以及使用基于IRT的性能估计算法演化最佳合并方式来实现这一点。我们的方法使得最先进的多语言和跨语言合并成为可能，并以显著降低的计算成本在不同语言之间转移知识。我们提供了理论保证并开源了一个库，使高质量模型合并更加普及。