LLM2D

摘要

arXiv:2504.12971v1 宣告类型: cross 摘要：神经架构搜索（NAS）面临一个挑战，即在探索能够促进架构创新的高度表达性宽广搜索空间的同时，还需要高效评估架构以有效地搜索这样的空间。我们研究基于上下文无关文法的架构创新的代理模型训练，以提高搜索。我们表明：i) 使用零成本代理度量和神经图特征（GRAF）或微调现成的语言模型训练的代理模型，对于在不同数据集中架构的性能具有很高的预测能力，ii) 这些代理模型可以在探索新数据集时过滤掉不良架构，从而显著加快搜索，并实现更好的最终性能，iii) 这些代理模型还可以进一步直接用作搜索目标，以实现巨大的速度提升。