LLM2D
MERGE³:在消费者级GPU上高效进化合并
MERGE$^3$: Efficient Evolutionary Merging on Consumer-grade GPUs
作者: Tommaso Mencattini, Adrian Robert Minut, Donato Crisostomi, Andrea Santilli, Emanuele Rodol\`a
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10436v1

摘要

arXiv:2502.10436v1 宣告类型: cross 摘要:进化模型合并能够创建高性能的多任务模型,但对于消费者硬件来说仍然具有计算上的限制。我们介绍了MERGE$^3$,这是一种高效的框架,通过将适应度计算成本降低50倍,使得在单个GPU上实现进化合并成为可能,同时保持性能不变。MERGE$^3$ 通过提取评估所需的小型数据集、利用项目反应理论(IRT)估计模型能力以及通过基于IRT的性能估计器实现最优合并,来实现这一点。我们的方法使得最先进的多语言和跨语言合并成为可能,能够在显著降低计算开销的同时,在不同语言之间转移知识。我们提供了理论保证,并公开了一个库,使高质量模型合并惠及更多人。