LLM2D

摘要

深度神经网络常常学习相似的内部表示，这既存在于不同模型之间，也存在于模型自身的各个层级内部。虽然网络间的相似性已经催生了模型拼接和融合等技术，但网络内部的相似性为设计更高效的架构带来了新的机遇。本文研究了不同神经网络架构中不同层级之间这些内部相似性的涌现，结果表明相似性模式的出现与所用数据集无关。我们引入了一个简单的度量指标——块冗余度——来检测冗余块，为未来的架构优化方法奠定了基础。在此基础上，我们提出了冗余块近似 (RBA) 框架，该框架能够识别并使用更简单的变换来近似一个或多个冗余计算块。我们证明了两个表示之间的变换 $\mathcal{T}$ 可以高效地以闭合形式计算，并且足以替换网络中的冗余块。RBA 在保持良好性能的同时，降低了模型参数和时间复杂度。我们使用各种预训练的基础模型和数据集，在视觉领域的分类任务上验证了我们的方法。