LLM2D

摘要

arXiv:2503.23379v1 宣布类型: cross 摘要: 动态卷积通过适配性地结合多个核来增强模型容量，但面临关键权衡：先前的工作要么(1)通过线性扩展核的数量引发显着的参数开销，要么(2)通过复杂的核交互牺牲推理速度，要么(3)难以共同优化动态注意力和静态核。我们还观察到，预训练的卷积神经网络(CNNs)类似于大型语言模型(LLMs)中的层间冗余。具体来说，密集的卷积层可以通过从共享“父”卷积核生成的“子”层来高效地替换，而无需改变卷积结构。为了应对这些限制并实施数值共享机制，我们提出了一种轻量级卷积核插件，名为KernelDNA。它将核适应拆分为输入相关的动态路由和预训练的静态调制，确保参数效率和硬件友好的推理。与通过多核集合扩展参数的现有动态卷积不同，我们的方法利用跨层的权重共享和基于适配器的调制，无需改变标准卷积结构即可实现动态核的专业化。此设计保留了标准卷积的原生态计算效率，同时通过输入适应的核调整增强表示能力。在图像分类和密集预测任务上的实验表明，KernelDNA 在动态卷积变种中实现了最高的精度效率平衡。我们的代码可在 https://github.com/haiduo/KernelDNA 获取。