LLM2D

摘要

arXiv:2406.14479v2 通知类型: 替换摘要：分析内部表示之间的相似性是一种理解深度神经网络行为的重要技术。目前，大多数用于分析高维表示之间相似性的方法，如中心核对齐（CKA）方法，依赖于数据点表示的统计特性。在本文中，我们将重点放在变压器模型上，并研究单个变压器内部层之间表示的相似性。在此背景下，我们表明，简单的样本内余弦相似度度量能够捕获这种相似性，并且与复杂的CKA一致。我们在常见变压器上的实验结果表明，不同层的表示具有正相关性，随着层的接近，相似性会增加。我们在学习的变压器假设有地理曲线假设的情况下提供了一个理论解释这一现象。然后，我们证明表示相似性的增加直接应用于任何隐藏层表示的最后一层分类器的预测概率也会增加。我们提出了一种对齐训练方法，通过增强内部表示之间的相似性来提高浅层的有效性，训练后的模型具有以下特性：(1) 更多的早期饱和事件，(2) 层级准确率单调增加，并揭示了所需最小深度，(3) 当作为多出口模型使用时，它们的性能与包含专门为浅层早期退出设计的额外分类器的标准多出口架构相当。据我们所知，这是第一次表明单一常见分类器足以应用于多出口模型。我们分别在视觉和自然语言处理任务上进行了实验，以展示所提出的对齐训练方法的性能。