LLM2D

摘要

智能体是一种特殊的基于人工智能的软件，它们在复杂的环境中交互，并具有更大的涌现行为潜力。解释这种涌现行为是部署可信赖 AI 的关键，但许多智能体实现的日益复杂和不透明性使得这变得困难。在这项工作中，我们提出了一种概率图模型以及设计这种模型的流程——通过该模型可以对智能体的行为进行推演——并计算智能体在任何时刻的意图的鲁棒数值。我们贡献了评估所提供解释的可解释性和可靠性的度量，并使解释性问题成为可能，例如“你现在想做什么？”（例如，送汤）“你打算如何做？”（例如，返回一个考虑其技能和世界的计划）以及“为什么你会在这种状态下采取这种行动？”（例如，解释该行动如何促进或阻碍其自身目标）。该模型可以通过对智能体行动和世界状态的部分观察来构建，我们提供了一个迭代工作流程，通过更好的设计和/或指出非理性智能体行为来提高所提出的度量。