LLM2D

摘要

arXiv:2502.06849v1 宣告类型：交叉摘要：集成学习是提高神经网络预测性能的一种广泛应用的技术。然而，它会增加内存使用和推理时间。在这项工作中，我们提出了一种名为“神经元移植（NT）”的新型模型融合技术，在这种技术中，我们通过移植物质重要神经元到剪枝掉不重要神经元后获得的空缺位置来融合一组模型。移植后初始的性能下降可以通过微调快速恢复，从而在相同模型容量和架构的情况下，始终优于个体的集合成员。此外，NT 允许所有集合成员在结合的模型中共同进行剪枝和联合训练。与基于对齐的平均化（如最优传输融合）相比，它所需的微调时间更少，融合本身速度更快，占用的内存更少，而最终的模型性能可与之相比或更好。代码可通过以下链接获取：https://github.com/masterbaer/neuron-transplantation。