LLM2D
DNAD:可微神经架构蒸馏
DNAD: Differentiable Neural Architecture Distillation
作者: Xuan Rao, Bo Zhao, Derong Liu
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20080v1

摘要

arXiv:2504.20080v1 交叉公告类型 摘要:为了满足设计高效神经网络的需求,同时在模型性能(例如,分类准确率)与计算复杂性之间取得适当的权衡,基于两种核心——通过删除搜索和通过模仿搜索,开发了可微神经架构蒸馏(DNAD)算法。首先,为了在细胞类型不再共享相同拓扑结构的空间中推导神经架构,基于不同的可微架构搜索(DARTS)框架,即通过删除搜索,开发了超网络渐进式收缩(SNPS)算法。与传统的基于DARTS的方法不同,这些方法仅在搜索过程中推导出结构简单的神经架构,SNPS能够通过逐步从密集结构强制动态超网络收缩为稀疏结构,推导出一组具有灵活结构的Pareto最优架构集合。此外,由于知识蒸馏(KD)已经展示了在辅助的过参数化模型的帮助下训练紧凑网络的巨大有效性,我们将SNPS与KD结合,形成了DNAD算法,即通过模仿搜索。通过最小化超网络和教师网络行为之间的差异,避免了一级DARTS的过拟合,并推导出了表现良好的神经架构。在CIFAR-10和ImageNet分类任务上的实验表明,SNPS和DNAD都能够推导出具有相似或更低误差率且参数更少和FLOPs更少的架构集。特别是,DNAD在ImageNet分类任务中达到了6.0M参数和598M FLOPs的模型,其top-1误差率为23.7%,优于大多数基于DARTS的方法。