摘要
arXiv:2504.00186v1 类型: cross
摘要:虚假相关是一种不稳定的统计关联,阻碍了稳健决策的制定。通常认为,依赖这些关联的模型将在分布外(OOD)泛化时失败,特别是在强分布移动下。然而,实验证据反驳了这一观点,因为简单的就分布内经验风险最小化方法往往在流行的OOD泛化基准上取得最佳的OOD准确性。鉴于这些结果,我们提出了一个不同的视角:许多用于评估对虚假相关稳健性的基准是错误指定的。具体来说,它们未能包含有意义影响OOD泛化的虚假关联变化,使得它们不适于评估去除这些关联的益处。我们建立了在一定条件下,分布移动可以可靠地评估模型对虚假相关依赖性的条件。关键的是,在这些条件下,我们不应观察到在分布内和OOD准确性之间有强烈正相关,通常称为“准确线”。然而,大多数最先进的基准表现出这种模式,表明它们未能有效地评估稳健性。我们的发现揭示了当前用于评估域泛化算法稳健性的基准的一个关键局限性,即设计旨在避免虚假相关性的模型。我们强调了重新思考如何评估对虚假相关稳健性的需求,指出了领域应优先考虑的适当指定基准,并列举了用于设计未来基准的设计策略,这些基准能够有意义地反映在分布移动下稳健性的情况。