摘要
arXiv:2505.03793v1 Announce Type: cross
摘要:开源大型语言模型(LLMs)和多样化的下游任务的增长使得在计算资源受限的情况下,有效选择模型变得必要。尽管在LLM选择方面最近取得了进展,但一个基本的研究问题仍然处于萌芽状态:我们如何在微调过程中建模LLM的动力学行为,从而增强我们对其在各种下游任务中泛化性能的理解?在本文中,我们提出了一种新的理论框架,为评估LLMs的泛化能力提供了一个适当的视角,从而能够为下游应用高效准确地选择LLMs。具体来说,我们首先推导了一个基于Hessian的PAC-Bayes泛化边界,揭示了LLMs的微调动力学,然后引入LENSLLM,这是一种基于神经切线核(NTK)的修正缩放模型,能够在保持计算效率的同时提供准确的跨任务性能预测。在三个大规模基准上的广泛实验证明,我们的模型在LLM选择中的准确率达到91.1%,计算成本降低88.5%,超过了5种现有最先进的方法。我们已在GitHub链接中开源了我们提出的LENSLLM模型及相应结果:https://github.com/Susan571/LENSLLM.git。