LLM2D
被标题捕获:关于CLIP模型中的记忆及其缓解方法
Captured by Captions: On Memorization and its Mitigation in CLIP Models
作者: Wenhao Wang, Adam Dziedzic, Grace C. Kim, Michael Backes, Franziska Boenisch
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.07830v1

摘要

arXiv:2502.07830v1 类型: cross 摘要:多模态模型,如CLIP,在对齐视觉和文本表示方面表现出了强大的能力,尤其在图像检索和零-shot分类等任务中表现出色。尽管取得了这一成功,但这些模型如何利用训练数据,特别是记忆的作用,仍然不清楚。在单模态模型中,无论是监督学习还是自监督学习,记忆都被证明是泛化的关键。然而,这些发现如何适用于同时结合了监督学习和自监督学习的CLIP模型,这一问题却不甚清楚,这种结合还包括通过提供类似于标签的监督信号的 caption 来进行监督学习,以及通过对比目标进行自监督学习。为了解决这一理解上的缺口,我们提出了一个CLIP(CLIPMem)的记忆形式定义,并使用它来量化CLIP模型中的记忆。结果显示,CLIP的记忆行为介于监督学习和自监督学习之间,“错误标注”的样本具有最高水平的记忆。此外,我们发现文本编码器比图像编码器对记忆的贡献更大,这表明减缓策略应集中在文本领域。基于这些见解,我们提出了多种策略来减少记忆的同时提高效用——这对于传统的学习范式来说是一个新颖的观点,因为在传统范式中,减少记忆通常会导致效用的降低。