LLM2D

摘要

arXiv:2503.06473v3 宣告类型: replace-cross 摘要：越来越多的证据表明，层间注意机制在增强深度神经网络层间交互方面取得了显著进展，从而极大地提升了网络架构。然而，现有的层间注意方法存在冗余问题，因为相邻层学习到的注意权重往往变得非常相似。这种冗余导致多个层提取几乎相同的特征，降低了模型的表示能力并增加了训练时间。为了应对这一问题，我们提出了一种新的方法，通过利用相邻层之间的克劳特-莱布勒（Kullback-Leibler，KL）发散来量化冗余。此外，我们引入了一种增强的β分位数映射（Enhanced Beta Quantile Mapping，EBQM）方法，能够准确识别并跳过冗余层，从而保持模型的稳定性。我们提出的高效层间注意（Efficient Layer Attention，ELA）架构提高了训练效率和整体性能，在诸如图像分类和目标检测等任务上实现了30%的训练时间减少。