LLM2D
WASP: 一种权重空间方法检测学习到的偏差
WASP: A Weight-Space Approach to Detecting Learned Spuriousness
作者: Cristian Daniel P\u{a}duraru, Antonio B\u{a}rb\u{a}lau, Radu Filipescu, Andrei Liviu Nicolicioiu, Elena Burceanu
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2410.18970v3

摘要

arXiv:2410.18970v3 公告类型:替换 摘要:对于训练机器学习模型以使其明确理解每个类别在给定任务中所定义的内容来说,这至关重要。尽管有许多研究致力于识别可能影响模型对类别的理解的数据集中的伪相关性,但所有当前的方法都仅依赖于数据或误差分析。也就是说,它们不能指出模型学习的伪相关性,而这些伪相关性已经在验证集或训练集中作为反例指出。我们提出了一种超越这一局限的方法,将焦点从分析模型的预测转向分析模型的权重,即决策背后的机制,这证明更具有洞察力。我们提出的一种检测伪相关性的权重空间方法(WASP)依赖于在基础模型适应捕捉各种(伪)相关性时分析其权重。我们展示了与以往研究不同,我们的方法能够(i)即使在训练或验证集的反例没有暴露的情况下,也能暴露数据集中的伪相关性;(ii)适用于多种模态,如图像和文本;(iii)揭示了ImageNet-1k分类器中存在的先前未被发掘的伪相关性。