LLM2D

摘要

arXiv:2309.16960v4 公告类型: 替换摘要：理解一个引导状态到动作映射以最大化奖励的强化学习策略，需要有一套人类可理解的解释。在本文中，我们介绍了一套线性时序逻辑公式，用于为策略提供解释，并提出了一种通过这些公式搜索最佳解释给定策略的算法。我们的重点在于阐明策略最终实现的目标以及其执行过程中所维持的前提条件。我们通过模拟的捉旗游戏和泊车环境展示了我们提出的方法的有效性。