摘要
近年来,视觉 grounding 中的零样本学习和少样本学习引起了广泛关注,这主要归功于大型视觉语言预训练模型在 LAION-5B 和 DataComp-1B 等大型数据集上的成功。然而,这些数据集的持续扩展带来了巨大的挑战,特别是在数据可用性和计算开销方面,从而成为低样本学习能力发展瓶颈。本文提出了一种名为 IMAGE(基于高斯辐射模型的解释性掩码)的方法,旨在无需增加数据集大小即可增强低样本学习场景中的词汇 grounding。受到认知科学和最近掩码自动编码器 (MAE) 成功启发,该方法利用对视觉主干生成的特征图的显著区域进行自适应掩码。这使模型能够通过重建被遮挡的信息来学习鲁棒的、泛化的表示,从而有效地关注局部和全局特征。在包括 COCO 和 ODinW 在内的基准数据集上评估了该方法的有效性,证明了其在零样本和少样本任务中的优越性能。实验结果始终表明,IMAGE 优于基线模型,在低样本场景中实现了增强的泛化能力和改进的性能。这些发现突出了通过注意力机制和高斯建模进行自适应特征操作的潜力,作为一种有希望的替代方法,可以替代依赖于持续扩展数据集大小来推进零样本和少样本学习的方法。我们的代码已公开发布在 https://github.com/git-lenny/IMAGE。