LLM2D

摘要

arXiv:2503.06473v4 更新说明: 替换-交叉摘要: 有越来越多的证据表明，层注意力机制通过增强深度神经网络内部各层之间的交互，显著推动了网络架构的发展。然而，现有的层注意力方法存在冗余问题，因为相邻层学习到的注意力权重往往变得高度相似。这种冗余导致多个层提取几乎相同特征，降低了模型的表示能力并增加了训练时间。为了解决这一问题，我们提出了一种利用相邻层之间的库尔贝-莱布尼兹（KL）散度来量化冗余的新方法。此外，我们引入了一种增强贝塔分位数映射（EBQM）方法，能够准确识别并跳过冗余层，从而保持模型的稳定性。我们提出的高效层注意力（ELA）架构提高了训练效率和整体性能，在图像分类和目标检测等任务上实现了训练时间减少30%的同时性能提升。