LLM2D
GPT-NAS:基于生成预训练模型的进化神经架构搜索
GPT-NAS: Evolutionary Neural Architecture Search with the Generative Pre-Trained Model
作者: Caiyang Yu, Xianggen Liu, Yifan Wang, Yun Liu, Wentao Feng, Deng Xiong, Chenwei Tang, Jiancheng Lv
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2305.05351v4

摘要

arXiv:2305.05351v4 宣告类型: replace-cross 摘要:神经架构搜索(NAS)已经成为设计自动最优神经网络架构的有效方法之一。尽管神经架构在多项任务中达到了人类级别的性能,但很少有架构是通过NAS方法获得的。主要原因在于神经架构的巨大搜索空间,使得NAS算法效率低下。本工作提出了一种新的架构搜索算法,称为GPT-NAS,该算法通过生成预训练(GPT)模型结合演化算法(EA)作为搜索策略来优化神经架构。在GPT-NAS中,我们假设在大规模语料库上预训练的生成模型可以学习构建神经架构的基本法则。因此,GPT-NAS 利用 GPT 模型根据基本架构提出合理的架构组件,然后利用 EA 在搜索过程中寻找最优解。这种方法可以通过在搜索过程中引入先验知识大大减少搜索空间。广泛的经验结果表明,我们的GPT-NAS方法显著优于七种手工设计的神经架构和十三种来自竞争NAS方法的架构。此外,我们的实验还表明,与不使用GPT的架构相比,所提出的算法最多可以提高约12%的精细调优神经架构的性能,进一步证明了其在搜索神经架构方面的有效性。