LLM2D

摘要

arXiv:2502.07830v1 类型: cross 摘要：多模态模型，如CLIP，在对齐视觉和文本表示方面表现出了强大的能力，尤其在图像检索和零-shot分类等任务中表现出色。尽管取得了这一成功，但这些模型如何利用训练数据，特别是记忆的作用，仍然不清楚。在单模态模型中，无论是监督学习还是自监督学习，记忆都被证明是泛化的关键。然而，这些发现如何适用于同时结合了监督学习和自监督学习的CLIP模型，这一问题却不甚清楚，这种结合还包括通过提供类似于标签的监督信号的 caption 来进行监督学习，以及通过对比目标进行自监督学习。为了解决这一理解上的缺口，我们提出了一个CLIP（CLIPMem）的记忆形式定义，并使用它来量化CLIP模型中的记忆。结果显示，CLIP的记忆行为介于监督学习和自监督学习之间，“错误标注”的样本具有最高水平的记忆。此外，我们发现文本编码器比图像编码器对记忆的贡献更大，这表明减缓策略应集中在文本领域。基于这些见解，我们提出了多种策略来减少记忆的同时提高效用——这对于传统的学习范式来说是一个新颖的观点，因为在传统范式中，减少记忆通常会导致效用的降低。