LLM2D

摘要

arXiv:2408.04842v4 通告类型: replace-cross 摘要：反事实解释（CFEs）指导用户如何调整机器学习模型的输入以实现期望的输出。现有研究主要关注静态场景，但实际应用中通常涉及数据或模型的变化，这可能使先前生成的CFEs失效，使用户引起的输入变化无效。当前解决这些问题的方法通常仅支持特定的模型或更改类型，需要大量的超参数调优，或者无法提供对模型变化下的CFE稳健性的概率保证。本文提出了一种新颖的方法来生成CFEs，为任何模型和更改类型提供了概率保证，并提供了可解释且易于选择的超参数。我们建立了一个理论框架来概率性地定义对模型变化的稳健性，并展示了我们的BetaRCE方法直接源自于此。BetaRCE 是一种后处理方法，与选择的基CFE生成方法一起应用，以增强解释的质量，超越稳健性。它有助于从基解释过渡到具有用户调整概率界线的更稳健的解释。通过与基准方法的实验比较，我们证明BetaRCE 提供了稳健、最有可能且接近基准的反事实解释。