LLM2D

摘要

arXiv:2505.03793v1 Announce Type: cross 摘要：开源大型语言模型（LLMs）和多样化的下游任务的增长使得在计算资源受限的情况下，有效选择模型变得必要。尽管在LLM选择方面最近取得了进展，但一个基本的研究问题仍然处于萌芽状态：我们如何在微调过程中建模LLM的动力学行为，从而增强我们对其在各种下游任务中泛化性能的理解？在本文中，我们提出了一种新的理论框架，为评估LLMs的泛化能力提供了一个适当的视角，从而能够为下游应用高效准确地选择LLMs。具体来说，我们首先推导了一个基于Hessian的PAC-Bayes泛化边界，揭示了LLMs的微调动力学，然后引入LENSLLM，这是一种基于神经切线核（NTK）的修正缩放模型，能够在保持计算效率的同时提供准确的跨任务性能预测。在三个大规模基准上的广泛实验证明，我们的模型在LLM选择中的准确率达到91.1%，计算成本降低88.5%，超过了5种现有最先进的方法。我们已在GitHub链接中开源了我们提出的LENSLLM模型及相应结果：https://github.com/Susan571/LENSLLM.git。