摘要
arXiv:2502.10463v1 类型: cross
摘要:神经网络的深度是其能力的关键因素,更深的模型通常表现出更好的性能。受此启发,已经做出了大量努力来增强层聚合——利用上一层的信息以更好地提取当前层的特征,从而提高深层神经网络的表现能力。然而,之前的工作主要从离散状态的角度来解决这个问题,当网络层数增加时,这种方法不再适用。本文新颖地将层的输出视为连续过程中的一种状态,并考虑利用状态空间模型(SSM)来设计非常深的神经网络中的层聚合。此外,受到其在建模长序列方面进步的启发,Selective State Space Models(S6)被用来设计一个新的模块,称为Selective State Space Model Layer Aggregation(S6LA)。该模块旨在在序列框架内组合传统的CNN或transformer架构,增强当前最先进的视觉网络的表现能力。广泛实验表明,S6LA在图像分类和检测任务中都取得了显著改进,突显了将SSMs与现代深度学习技术相结合的潜力。