LLM2D

摘要

本文提出了一种在设计现代卷积神经网络 (ConvNets) 时采用大型卷积核的范式。我们证明，使用少量大型卷积核，而不是堆叠多个较小的卷积核，可能是一种更优的设计策略。我们的工作提出了一套针对大型卷积核 ConvNets 的架构设计指南，以优化其效率和性能。我们提出了 UniRepLKNet 架构，它提供专门针对大型卷积核 ConvNets 的系统架构设计原则，强调其在不进行深层堆叠的情况下捕获广泛空间信息的独特能力。这使得模型不仅在 ImageNet 上取得了 88.0% 的准确率、ADE20K 上取得了 55.6% 的 mIoU 和 COCO 上取得了 56.4% 的 box AP，而且在时间序列预测、音频、点云和视频识别等多种模态上也表现出令人印象深刻的可扩展性和性能。这些结果表明，大型卷积核 ConvNets 具有比视觉 Transformer 更快的推理速度，并拥有通用的建模能力。我们的发现表明，大型卷积核 ConvNets 具有更大的有效感受野和更高的形状偏差，从而摆脱了小型卷积核 CNN 的典型纹理偏差。所有代码和模型均可在 https://github.com/AILab-CVC/UniRepLKNet 上公开获取，以促进社区的进一步研究和开发。