LLM2D

摘要

arXiv:2502.09205v1 通告类型: 新增摘要：近年来，关于AI中的可解释性问题引起了广泛关注，尤其是在黑盒机器学习模型方面。正如计划社区正确指出的，当应用场景不是单一决策或预测，而是一个依赖于观察结果的一系列行动时，需要有更丰富的解释概念。在这篇文章中，我们试图基于行动序列提供“反事实解释”的正式说明。然后，我们展示了这自然地引出了模型调和的概念，可能的形式是用户纠正代理模型，或者建议代理计划中的行动。为此，我们需要区分什么是真实的，什么是已知的，并借助情境演算的模态片段来正式化这些直觉。我们考虑了不同的场景：代理了解部分真实信息、弱化的真实信息以及错误的信念，并展示了我们的定义容易推广到这些不同的情景中。