LLM2D

摘要

arXiv:2504.12436v1 宣告类型: cross 摘要：将视觉-语言模型（VLMs）适应新的领域，尤其是在有限的标记样本情况下，仍旧是一个重大挑战，主要是由于严重的过拟合和计算约束。现有的最新解决方案，如低秩重参数化，虽然能够缓解这些问题，但通常难以实现良好的泛化，并且需要大量的超参数调整。在本文中，提出了一种新颖的稀疏优化（SO）框架。与低秩方法通常将更新约束在一个固定的子空间不同，我们的SO方法利用高稀疏性，动态调整极少的参数。我们提出了两个关键的范式。首先，我们提倡“局部稀疏性和全局密集性”，即在每次迭代中仅更新少量参数，同时保持模型的整体表达性。作为第二个范式，我们提倡“局部随机性和全局重要性”，这种方法通过随机选择来稀疏化梯度，基于重要性修剪一阶矩。这种组合显著减轻了过拟合，并确保在小数据集环境中稳定适配。在11个多样化的数据集上的广泛实验表明，SO方法在少量样本适应性能方面达到了最新的技术水平，同时减少了内存开销。