LLM2D

摘要

深度神经网络在不同模型之间以及自身不同层级之间往往学习到相似的内部表征。虽然网络间相似性已使模型拼接和合并等技术成为可能，但网络内相似性为设计更高效的架构提供了新的机遇。本文研究了这些内部相似性在不同神经架构不同层级之间的出现，表明相似性模式独立于所用数据集而出现。我们引入了一个简单的度量指标——块冗余度，用于检测冗余块，为未来的架构优化方法奠定了基础。在此基础上，我们提出了冗余块近似（RBA）框架，该框架使用更简单的变换来识别和近似一个或多个冗余计算块。我们证明了两个表征之间的变换 $\mathcal{T}$ 可以通过封闭形式有效地计算，并且足以用变换替换网络中的冗余块。RBA 减少了模型参数和时间复杂度，同时保持了良好的性能。我们使用各种预训练的基础模型和数据集，在视觉领域的分类任务中验证了我们的方法。