LLM2D

摘要

arXiv:2504.00037v1 类型:跨架构蒸馏摘要：视觉变换器（ViTs）通过全局自注意力取得了显著的进步，但它们的 quadratic 复杂度对于高分辨率输入可能会变得不可接受。在本文中，我们提出了一种名为 ViT-Linearizer 的跨架构蒸馏框架，该框架将丰富的 ViT 表示转为线性时间、循环风格的模型。我们的方法采用了 1) 激活匹配，这是一种中间约束，鼓励学生调整其逐令牌依赖关系，使之与教师产生的依赖关系对齐，以及 2) 掩码预测，这是一个上下文重构目标，要求学生预测教师对于未见（掩码）令牌的表示，从而有效地将 quadratic 自注意力的知识转移至学生，同时保持高效复杂度。实验结果表明，我们的方法在高分辨率任务中提供了显著的速度提升，显著解决了推理过程中的硬件挑战。此外，它还提升了基于 Mamba 的架构在标准视觉基准上的性能，在基线规模模型上，ImageNet 的顶级准确率达到 84.3%。我们的结果突显了基于 RNN 的解决方案对于大规模视觉任务的良好潜力，缩小了理论效率与实际应用之间的差距。