摘要
arXiv:2504.06006v1 交叉公告类型
摘要:最优超参数选择对于最大化神经网络性能至关重要,尤其是在模型变得越来越复杂的情况下。本项工作探讨了使用大型语言模型(LLMs)进行超参数优化的可能性,通过应用Code Llama的微调版本来进行。利用LoRA进行参数高效的微调,我们将LLM适应于生成针对不同神经网络架构准确且高效的超参数推荐。与依赖于详尽试验的传统方法(如Optuna)不同,提出的方法在均方根误差(RMSE)方面达到了竞争力甚至更优的结果,同时显著减少了计算开销。本方法突显了基于LLM的优化不仅可以与Tree-structured Parzen Estimators等最先进的方法匹敌,还可以加速调优过程。这将LLMs定位为传统优化技术的一种有前途的替代方案,特别是在快速实验方面。此外,能够一次性推断生成超参数的能力使该方法特别适用于计算效率至关重要的环境,如边缘设备和移动应用。实验结果证实,除了效率之外,LLMs还提供了重要的时间节省和相当的稳定性,突显了其在促进机器学习工作流方面的价值。所有生成的超参数都包含在公开可获取的LEMUR神经网络(NN)数据集中,该数据集作为超参数优化研究的开源基准。