LLM2D
利用反事实对齐识别虚假关联
Identifying Spurious Correlations using Counterfactual Alignment
作者: Joseph Paul Cohen, Louis Blankemeier, Akshay Chaudhari
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2312.02186v2

摘要

由虚假关联驱动的模型通常会导致较差的泛化性能。我们提出了反事实 (CF) 对齐方法来检测和量化黑盒分类器的虚假关联。我们的方法基于针对一个分类器生成的,输入到其他分类器中的反事实图像,以观察它们是否也会引起这些分类器输出的变化。这些响应之间的关系可以被量化,并用于识别存在虚假关联的特定实例。通过观察人脸属性-人脸属性和水鸟分类器中直观的趋势,以及通过制造虚假关联并视觉和定量地检测它们的存在,验证了这一点。此外,利用 CF 对齐方法,我们证明了可以通过检测虚假关联的减少来评估鲁棒优化方法(GroupDRO、JTT 和 FLAC)。