摘要
arXiv:2503.06473v3 宣告类型: replace-cross
摘要:越来越多的证据表明,层间注意机制在增强深度神经网络层间交互方面取得了显著进展,从而极大地提升了网络架构。然而,现有的层间注意方法存在冗余问题,因为相邻层学习到的注意权重往往变得非常相似。这种冗余导致多个层提取几乎相同的特征,降低了模型的表示能力并增加了训练时间。为了应对这一问题,我们提出了一种新的方法,通过利用相邻层之间的克劳特-莱布勒(Kullback-Leibler,KL)发散来量化冗余。此外,我们引入了一种增强的β分位数映射(Enhanced Beta Quantile Mapping,EBQM)方法,能够准确识别并跳过冗余层,从而保持模型的稳定性。我们提出的高效层间注意(Efficient Layer Attention,ELA)架构提高了训练效率和整体性能,在诸如图像分类和目标检测等任务上实现了30%的训练时间减少。