摘要
arXiv:2504.03118v1 类型: cross
摘要:视觉变换器(ViTs)在计算机视觉任务中表现出色,但在边缘设备的多样化需求上缺乏灵活性。一个关键问题是,预训练以涵盖广泛任务的 ViTs 对于通常只在特定任务中需要一部分 ViT 知识的边缘设备来说显得“过于合格”;其在这些边缘设备上的特定任务准确率不足。我们发现,专注于设备特定任务的小型 ViTs 可以提高模型准确率,并且同时加速模型推理。本文提出了 NuWa 方法,该方法是从基本 ViT 中获取适合边缘设备特定任务需求的小型 ViTs。NuWa 可以将基本 ViT 中提取的任务特定知识转移到小型 ViTs 中,这些小型 ViTs 可以充分利用边缘设备上的受限资源,同时确保模型准确率和推理延迟之间的权衡。在三个基本 ViT 和三个公开数据集上的实验表明,与最新解决方案相比,NuWa 可以将模型准确率提高最多 11.83% ,并加速模型推理 1.29 至 2.79 倍。可在 https://anonymous.4open.science/r/Task_Specific-3A5E 复现代码。