摘要
arXiv:2504.05393v1 通知书类型: 新
摘要: 随着强化学习方法取得越来越多的成就,对其解决方案的理解变得越来越关键。大多数可解释的强化学习(XRL)方法生成的是静态解释,描绘了开发者的直觉关于解释的内容和方式。相比之下,社会科学文献表明,有意义的解释是解释者和被解释者之间对话的形式,这建议用户在与代理的交流中发挥更主动的作用。在本文中,我们提出了ASQ-IT——一个交互式解释系统,根据用户提供的描述感兴趣行为的时间属性的查询来展示代理在环境中的行为视频片段。我们的方法基于形式化方法:ASQ-IT用户界面中的查询映射到我们开发的线性时序逻辑的有限迹片段(LTLf),我们的查询处理算法基于自动机理论。用户研究显示,最终用户能够理解和在ASQ-IT中提出查询,并且使用ASQ-IT有助于用户识别代理的错误行为。