LLM2D
频率动态卷积用于密集图像预测
Frequency Dynamic Convolution for Dense Image Prediction
作者: Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18783v1

摘要

arXiv:2503.18783v1 宣告类型: cross 摘要:虽然动态卷积(DY-Conv)通过结合注意力机制的多个并行权重实现了自适应权重选择,从而展示了有前景的性能,但这些权重的频率响应往往会表现出高度的相似性,导致高参数成本但适应性有限。在本文中,我们引入了频域动态卷积(FDConv),这是一种通过在傅里叶域中学习固定参数预算来缓解这些限制的新方法。FDConv 将这个预算分成具有独立傅里叶索引的频率基群,从而在不增加参数成本的情况下构建频率多样化的权重。为了进一步增强适应性,我们提出了核空间调节(KSM)和频带调节(FBM)。KSM 在空间级别动态调整每个滤波器的频率响应,而 FBM 在频域中将权重分解为不同的频率带,并根据局部内容动态调节它们。广泛的实验对象检测、分割和分类验证了 FDConv 的有效性。我们表明,当应用于 ResNet-50 时,FDConv 在参数数量仅增加 3.6M 的情况下实现了优越的性能,超越了需要显著增加参数预算的先前方法(例如,CondConv +90M,KW +76.5M)。此外,FDConv 平滑地集成到各种架构中,包括 ConvNeXt、Swin-Transformer,为现代视觉任务提供了灵活高效的解决方案。代码已公开发布在 https://github.com/Linwei-Chen/FDConv。