摘要
arXiv:2504.01690v1 交叉公告类型
摘要:视觉变换器(ViTs)已在各种计算机视觉任务中取得了最先进的性能,但其高昂的计算成本仍然是一个挑战。令牌裁剪已被提出通过选择性地去除不太重要的令牌来降低这种成本。尽管在视觉任务中通过丢弃非物体区域是有效的,但在音频任务中应用此技术存在独特的挑战,因为在时频表示中区分相关和无关区域并不那么显而易见。在本研究中,我们首次将令牌裁剪应用于基于梅尔频谱图的音频分类模型,并分析了模型性能与计算成本之间的权衡:TopK 令牌裁剪可以将 AudioMAE 和 AST 的 MAC 操作减少 30-40%,而分类准确性下降不到 1%。我们的分析显示,高强度令牌对模型准确性有显著贡献,而低强度令牌仍然很重要。特别是,它们在一般音频分类任务中比在特定于语音的任务中扮演更重要的角色。