摘要
arXiv:2303.16900v3 宣告类型: replace-cross
摘要:受ViTs远程建模能力的启发,最近广泛研究和采用了大内核卷积,以扩大感受野并改善模型性能,例如使用7x7深度卷积的显著工作ConvNeXt。尽管这种深度卷积操作只消耗少量FLOPs,但在强大的计算设备上却极大地损害了模型效率,原因是其高内存访问成本。例如,ConvNeXt-T在A100 GPU上全精度训练时,其吞吐量仅为ResNet-50的约60%,尽管减少ConvNeXt的内核大小可以提高速度,但会显著降低性能,这提出了一个具有挑战性的问题:如何在保持性能的同时加快基于大内核的CNN模型的速度。为了解决这个问题,受到Inceptions的启发,我们提出将大内核深度卷积沿通道维分解为四个并行分支,即小方形内核、两个正交带状内核和恒等映射。通过这种方式,我们构建了一系列网络,即IncepitonNeXt,不仅可以享受高吞吐量,还能保持竞争力的性能。例如,InceptionNeXt-T在训练吞吐量上比ConvNeX-T高出1.6倍,并且在ImageNet-1K上达到了0.2%的顶级准确率改进。我们期望InceptionNeXt可以作为未来架构设计的经济基准,减少碳足迹。代码可在以下链接获取:https://github.com/sail-sg/inceptionnext。