摘要
arXiv:2503.23379v1 宣布类型: cross
摘要: 动态卷积通过适配性地结合多个核来增强模型容量,但面临关键权衡:先前的工作要么(1)通过线性扩展核的数量引发显着的参数开销,要么(2)通过复杂的核交互牺牲推理速度,要么(3)难以共同优化动态注意力和静态核。我们还观察到,预训练的卷积神经网络(CNNs)类似于大型语言模型(LLMs)中的层间冗余。具体来说,密集的卷积层可以通过从共享“父”卷积核生成的“子”层来高效地替换,而无需改变卷积结构。
为了应对这些限制并实施数值共享机制,我们提出了一种轻量级卷积核插件,名为KernelDNA。它将核适应拆分为输入相关的动态路由和预训练的静态调制,确保参数效率和硬件友好的推理。与通过多核集合扩展参数的现有动态卷积不同,我们的方法利用跨层的权重共享和基于适配器的调制,无需改变标准卷积结构即可实现动态核的专业化。此设计保留了标准卷积的原生态计算效率,同时通过输入适应的核调整增强表示能力。在图像分类和密集预测任务上的实验表明,KernelDNA 在动态卷积变种中实现了最高的精度效率平衡。我们的代码可在 https://github.com/haiduo/KernelDNA 获取。