摘要
智能体是一种特殊的基于人工智能的软件,它们在复杂的环境中交互,并具有更大的涌现行为潜力。解释这种涌现行为是部署可信赖 AI 的关键,但许多智能体实现的日益复杂和不透明性使得这变得困难。在这项工作中,我们提出了一种概率图模型以及设计这种模型的流程——通过该模型可以对智能体的行为进行推演——并计算智能体在任何时刻的意图的鲁棒数值。我们贡献了评估所提供解释的可解释性和可靠性的度量,并使解释性问题成为可能,例如“你现在想做什么?”(例如,送汤)“你打算如何做?”(例如,返回一个考虑其技能和世界的计划)以及“为什么你会在这种状态下采取这种行动?”(例如,解释该行动如何促进或阻碍其自身目标)。该模型可以通过对智能体行动和世界状态的部分观察来构建,我们提供了一个迭代工作流程,通过更好的设计和/或指出非理性智能体行为来提高所提出的度量。