摘要
arXiv:2504.12436v1 宣告类型: cross
摘要:将视觉-语言模型(VLMs)适应新的领域,尤其是在有限的标记样本情况下,仍旧是一个重大挑战,主要是由于严重的过拟合和计算约束。现有的最新解决方案,如低秩重参数化,虽然能够缓解这些问题,但通常难以实现良好的泛化,并且需要大量的超参数调整。在本文中,提出了一种新颖的稀疏优化(SO)框架。与低秩方法通常将更新约束在一个固定的子空间不同,我们的SO方法利用高稀疏性,动态调整极少的参数。我们提出了两个关键的范式。首先,我们提倡“局部稀疏性和全局密集性”,即在每次迭代中仅更新少量参数,同时保持模型的整体表达性。作为第二个范式,我们提倡“局部随机性和全局重要性”,这种方法通过随机选择来稀疏化梯度,基于重要性修剪一阶矩。这种组合显著减轻了过拟合,并确保在小数据集环境中稳定适配。在11个多样化的数据集上的广泛实验表明,SO方法在少量样本适应性能方面达到了最新的技术水平,同时减少了内存开销。