LLM2D

摘要

arXiv:2504.03118v1 类型: cross 摘要：视觉变换器（ViTs）在计算机视觉任务中表现出色，但在边缘设备的多样化需求上缺乏灵活性。一个关键问题是，预训练以涵盖广泛任务的 ViTs 对于通常只在特定任务中需要一部分 ViT 知识的边缘设备来说显得“过于合格”；其在这些边缘设备上的特定任务准确率不足。我们发现，专注于设备特定任务的小型 ViTs 可以提高模型准确率，并且同时加速模型推理。本文提出了 NuWa 方法，该方法是从基本 ViT 中获取适合边缘设备特定任务需求的小型 ViTs。NuWa 可以将基本 ViT 中提取的任务特定知识转移到小型 ViTs 中，这些小型 ViTs 可以充分利用边缘设备上的受限资源，同时确保模型准确率和推理延迟之间的权衡。在三个基本 ViT 和三个公开数据集上的实验表明，与最新解决方案相比，NuWa 可以将模型准确率提高最多 11.83% ，并加速模型推理 1.29 至 2.79 倍。可在 https://anonymous.4open.science/r/Task_Specific-3A5E 复现代码。