摘要
arXiv:2503.22764v1 宣告类型: cross
摘要:在主流的大语言模型(LLM)微调协议中,模型通常保持完整。没有研究工作质疑保持模型完整是否对性能是必不可少的。在本文中,我们引入了一种全新的LMM微调范式——Mask Fine-Tuning(MFT),以展示适当破坏模型完整性可以意外地导致性能提升。具体而言,MFT通过典型的LMM微调目标学习一组二进制掩码。广泛的实验表明,MFT在各种领域和骨干(例如,用LLaMA2-7B/3.1-8B进行编程时,平均获得1.95%/1.88%的性能提升)。提供了详细的程序,从不同的超参数角度研究提出的MFT,以获得更好的洞察。特别地,MFT自然地更新了当前的LMM训练协议,通过将其部署在一个完全训练好的模型上。这项研究将掩码学习的功能从其传统的网络剪枝上下文中的模型压缩扩展到了更广泛的范围。