LLM2D

摘要

arXiv:2504.06006v2 声明类型: replace-cross 摘要：最优化的超参数选择对于最大化神经网络性能至关重要，尤其是在模型变得越来越复杂的情况下。本文探讨了利用大型语言模型（LLMs）进行超参数优化的可行性，通过使用LoRA微调参数高效的Code Llama版本。适应后的LLM能够生成针对各种神经网络架构的准确且高效的超参数建议。与依赖于密集计算的尝试-错误过程的传统方法如Optuna不同，我们的方法在均方根误差（RMSE）方面达到了竞争力或更优的结果，同时显著减少了计算开销。我们的研究结果表明，基于LLM的优化不仅能匹配如树状结构的帕金森估计器（TPE）等最先进的技术的性能，还能大大加速调优过程。这使得LLM成为资源受限环境中快速实验的有前途的替代方案，特别是在计算效率至关重要的情况下，例如边缘设备和移动平台。除了提高效率，该方法还提供了在各种任务中的一致性能和时间节省，突显了其鲁棒性和通用性。所有生成的超参数都被包含在LEMUR神经网络（NN）数据集中，该数据集公开可用，作为超参数优化研究的开源基准。