摘要
arXiv:2502.09205v1 通告类型: 新增
摘要:近年来,关于AI中的可解释性问题引起了广泛关注,尤其是在黑盒机器学习模型方面。正如计划社区正确指出的,当应用场景不是单一决策或预测,而是一个依赖于观察结果的一系列行动时,需要有更丰富的解释概念。
在这篇文章中,我们试图基于行动序列提供“反事实解释”的正式说明。然后,我们展示了这自然地引出了模型调和的概念,可能的形式是用户纠正代理模型,或者建议代理计划中的行动。为此,我们需要区分什么是真实的,什么是已知的,并借助情境演算的模态片段来正式化这些直觉。我们考虑了不同的场景:代理了解部分真实信息、弱化的真实信息以及错误的信念,并展示了我们的定义容易推广到这些不同的情景中。