摘要
反事实解释 (CE) 已成为可解释人工智能研究中的一个主要范式,为受机器学习模型决策影响的用户提供补救建议。然而,现有方法找到的反事实解释在模型参数发生细微变化时往往失效。文献中缺乏一种方法能够为模型变化下的反事实解释提供详尽的稳健性保证,因为现有改进反事实解释稳健性的方法大多是启发式的,并且稳健性性能仅使用有限数量的重新训练模型进行经验评估。为了弥补这一差距,我们提出了一种针对参数化机器学习模型的新型区间抽象技术,该技术使我们能够获得在可能无限的合理模型变化集 Δ 下反事实解释的可证明稳健性保证。基于此思想,我们在二元和多类分类设置中正式定义了反事实解释的稳健性概念,我们称之为 Δ-稳健性。我们提出了基于混合整数线性规划验证 Δ-稳健性的程序,并利用该程序进一步提出了生成 Δ-稳健的反事实解释的算法。在一个涉及神经网络和逻辑回归模型的广泛实证研究中,我们证明了该方法的实际适用性。我们讨论了确定方法中适当超参数的两种策略,并定量地对十一种方法生成的 CE 进行了基准测试,突出了我们的算法在寻找稳健的 CE 方面的有效性。