LLM2D
MERGE³:在消费者级GPU上的高效进化合并
MERGE$^3$: Efficient Evolutionary Merging on Consumer-grade GPUs
作者: Tommaso Mencattini, Adrian Robert Minut, Donato Crisostomi, Andrea Santilli, Emanuele Rodol\`a
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2502.10436v2

摘要

arXiv:2502.10436v2 宣布类型: replace-cross 摘要:进化模型合并能够创建高性能的多任务模型,但仍然由于计算成本过高而在消费者硬件上不切实际。我们引入了MERGE$^3$,这是一种高效的框架,通过将适应性计算成本降低50倍而仍然保持性能,使得在单个GPU上实现进化合并成为可能。MERGE$^3$ 通过提取用于评估的小数据集、使用项目反应理论(IRT)评估模型能力以及使用基于IRT的性能估计算法演化最佳合并方式来实现这一点。我们的方法使得最先进的多语言和跨语言合并成为可能,并以显著降低的计算成本在不同语言之间转移知识。我们提供了理论保证并开源了一个库,使高质量模型合并更加普及。