LLM2D

摘要

arXiv:2503.18783v2 宣布类型: replace-cross 摘要: 虽然动态卷积（DY-Conv）通过结合注意力机制启用多并行权重的自适应权重选择表现出有希望的性能，但这些权重的频率响应倾向于表现出高度的相似性，导致参数成本高但适应性有限。在这项工作中，我们引入了频率动态卷积（FDConv），这是一种通过在Fourier域中学习固定参数预算来缓解这些限制的新方法。FDConv将这个预算分成具有不重叠Fourier索引的频率基团，使能够在不增加参数成本的情况下构建频率多样化的权重。为了进一步增强适应性，我们提出了核空间调制（KSM）和频率带调制（FBM）。KSM在空间级别动态调整每个滤波器的频率响应，而FBM在频域中将权重分解为不同的频率带，并基于局部内容动态调制它们。广泛的实验在对象检测、分割和分类任务上验证了FDConv的有效性。我们证明，在ResNet-50上应用时，FDConv实现了优越的性能，仅增加了3.6M参数，优于需要大幅提升参数预算的先前方法（例如，CondConv +90M，KW +76.5M）。此外，FDConv可以无缝集成到各种架构中，包括ConvNeXt、Swin-Transformer，提供了一个灵活且高效的解决方案来应对现代视觉任务。相关的代码已公开发布在 https://github.com/Linwei-Chen/FDConv。