LLM2D

摘要

深度神经网络在不同模型之间以及自身层级内部，常常学习到相似的内部表示。虽然网络间相似性已催生了模型拼接和合并等技术，但网络内相似性为设计更高效的架构带来了新的机遇。本文研究了不同神经架构中不同层级之间内部相似性的出现，表明相似性模式独立于所用数据集而出现。我们引入了一个简单的指标——块冗余度，来检测冗余块，为未来的架构优化方法奠定了基础。在此基础上，我们提出了冗余块近似（RBA）框架，该框架使用更简单的变换来识别和近似一个或多个冗余计算块。我们证明了两种表示之间的变换$\mathcal{T}$可以有效地用闭式解计算，并且足以用它来替换网络中的冗余块。RBA 减少了模型参数和时间复杂度，同时保持了良好的性能。我们使用各种预训练的基础模型和数据集，在视觉领域的分类任务中验证了我们的方法。