摘要
arXiv:2504.06006v2 声明类型: replace-cross
摘要:最优化的超参数选择对于最大化神经网络性能至关重要,尤其是在模型变得越来越复杂的情况下。本文探讨了利用大型语言模型(LLMs)进行超参数优化的可行性,通过使用LoRA微调参数高效的Code Llama版本。适应后的LLM能够生成针对各种神经网络架构的准确且高效的超参数建议。与依赖于密集计算的尝试-错误过程的传统方法如Optuna不同,我们的方法在均方根误差(RMSE)方面达到了竞争力或更优的结果,同时显著减少了计算开销。我们的研究结果表明,基于LLM的优化不仅能匹配如树状结构的帕金森估计器(TPE)等最先进的技术的性能,还能大大加速调优过程。这使得LLM成为资源受限环境中快速实验的有前途的替代方案,特别是在计算效率至关重要的情况下,例如边缘设备和移动平台。除了提高效率,该方法还提供了在各种任务中的一致性能和时间节省,突显了其鲁棒性和通用性。所有生成的超参数都被包含在LEMUR神经网络(NN)数据集中,该数据集公开可用,作为超参数优化研究的开源基准。