LLM2D

摘要

arXiv:2502.10463v1 类型: cross 摘要：神经网络的深度是其能力的关键因素，更深的模型通常表现出更好的性能。受此启发，已经做出了大量努力来增强层聚合——利用上一层的信息以更好地提取当前层的特征，从而提高深层神经网络的表现能力。然而，之前的工作主要从离散状态的角度来解决这个问题，当网络层数增加时，这种方法不再适用。本文新颖地将层的输出视为连续过程中的一种状态，并考虑利用状态空间模型（SSM）来设计非常深的神经网络中的层聚合。此外，受到其在建模长序列方面进步的启发，Selective State Space Models（S6）被用来设计一个新的模块，称为Selective State Space Model Layer Aggregation（S6LA）。该模块旨在在序列框架内组合传统的CNN或transformer架构，增强当前最先进的视觉网络的表现能力。广泛实验表明，S6LA在图像分类和检测任务中都取得了显著改进，突显了将SSMs与现代深度学习技术相结合的潜力。