摘要
arXiv:2408.04842v4 通告类型: replace-cross
摘要:反事实解释(CFEs)指导用户如何调整机器学习模型的输入以实现期望的输出。现有研究主要关注静态场景,但实际应用中通常涉及数据或模型的变化,这可能使先前生成的CFEs失效,使用户引起的输入变化无效。当前解决这些问题的方法通常仅支持特定的模型或更改类型,需要大量的超参数调优,或者无法提供对模型变化下的CFE稳健性的概率保证。本文提出了一种新颖的方法来生成CFEs,为任何模型和更改类型提供了概率保证,并提供了可解释且易于选择的超参数。我们建立了一个理论框架来概率性地定义对模型变化的稳健性,并展示了我们的BetaRCE方法直接源自于此。BetaRCE 是一种后处理方法,与选择的基CFE生成方法一起应用,以增强解释的质量,超越稳健性。它有助于从基解释过渡到具有用户调整概率界线的更稳健的解释。通过与基准方法的实验比较,我们证明BetaRCE 提供了稳健、最有可能且接近基准的反事实解释。