LLM2D
反事实解释作为计划
Counterfactual Explanations as Plans
作者: Vaishak Belle (University of Edinburgh)
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09205v1

摘要

arXiv:2502.09205v1 通告类型: 新增 摘要:近年来,关于AI中的可解释性问题引起了广泛关注,尤其是在黑盒机器学习模型方面。正如计划社区正确指出的,当应用场景不是单一决策或预测,而是一个依赖于观察结果的一系列行动时,需要有更丰富的解释概念。 在这篇文章中,我们试图基于行动序列提供“反事实解释”的正式说明。然后,我们展示了这自然地引出了模型调和的概念,可能的形式是用户纠正代理模型,或者建议代理计划中的行动。为此,我们需要区分什么是真实的,什么是已知的,并借助情境演算的模态片段来正式化这些直觉。我们考虑了不同的场景:代理了解部分真实信息、弱化的真实信息以及错误的信念,并展示了我们的定义容易推广到这些不同的情景中。