LLM2D

摘要

由虚假关联驱动的模型通常会导致较差的泛化性能。我们提出了反事实 (CF) 对齐方法来检测和量化黑盒分类器的虚假关联。我们的方法基于针对一个分类器生成的，输入到其他分类器中的反事实图像，以观察它们是否也会引起这些分类器输出的变化。这些响应之间的关系可以被量化，并用于识别存在虚假关联的特定实例。通过观察人脸属性-人脸属性和水鸟分类器中直观的趋势，以及通过制造虚假关联并视觉和定量地检测它们的存在，验证了这一点。此外，利用 CF 对齐方法，我们证明了可以通过检测虚假关联的减少来评估鲁棒优化方法（GroupDRO、JTT 和 FLAC）。