LLM2D
通过修剪冗余检索以增强层注意力效率
Enhancing Layer Attention Efficiency through Pruning Redundant Retrievals
作者: Hanze Li, Xiande Huang
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2503.06473v4

摘要

arXiv:2503.06473v4 更新说明: 替换-交叉 摘要: 有越来越多的证据表明,层注意力机制通过增强深度神经网络内部各层之间的交互,显著推动了网络架构的发展。然而,现有的层注意力方法存在冗余问题,因为相邻层学习到的注意力权重往往变得高度相似。这种冗余导致多个层提取几乎相同特征,降低了模型的表示能力并增加了训练时间。为了解决这一问题,我们提出了一种利用相邻层之间的库尔贝-莱布尼兹(KL)散度来量化冗余的新方法。此外,我们引入了一种增强贝塔分位数映射(EBQM)方法,能够准确识别并跳过冗余层,从而保持模型的稳定性。我们提出的高效层注意力(ELA)架构提高了训练效率和整体性能,在图像分类和目标检测等任务上实现了训练时间减少30%的同时性能提升。