LLM2D
ViT-Linearizer:将二次知识distill进线性时间视觉模型
ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models
作者: Guoyizhe Wei, Rama Chellappa
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00037v1

摘要

arXiv:2504.00037v1 类型:跨架构蒸馏 摘要:视觉变换器(ViTs)通过全局自注意力取得了显著的进步,但它们的 quadratic 复杂度对于高分辨率输入可能会变得不可接受。在本文中,我们提出了一种名为 ViT-Linearizer 的跨架构蒸馏框架,该框架将丰富的 ViT 表示转为线性时间、循环风格的模型。我们的方法采用了 1) 激活匹配,这是一种中间约束,鼓励学生调整其逐令牌依赖关系,使之与教师产生的依赖关系对齐,以及 2) 掩码预测,这是一个上下文重构目标,要求学生预测教师对于未见(掩码)令牌的表示,从而有效地将 quadratic 自注意力的知识转移至学生,同时保持高效复杂度。实验结果表明,我们的方法在高分辨率任务中提供了显著的速度提升,显著解决了推理过程中的硬件挑战。此外,它还提升了基于 Mamba 的架构在标准视觉基准上的性能,在基线规模模型上,ImageNet 的顶级准确率达到 84.3%。我们的结果突显了基于 RNN 的解决方案对于大规模视觉任务的良好潜力,缩小了理论效率与实际应用之间的差距。