摘要
arXiv:2504.10071v1 宣告类型: 新
摘要: 当前可解释深度强化学习的方法在视觉输入中注意力掩码与物体之间的偏移方面存在限制。本工作解决的是传统卷积神经网络(CNNs)中的空间问题。我们提出了可解释特征提取器(IFE)架构,旨在生成一个准确的注意力掩码,以说明代理在空间域中集中注意的具体“什么”和“哪里”。我们的设计包括一个易理解编码模块,用于生成一个完全可解释的注意力掩码,以及一个代理友好编码模块,以提高代理的学习效率。这两个组件共同构成了用于基于视觉的深度强化学习的可解释特征提取器,以使模型具有可解释性。生成的注意力掩码具有一致性,高度易于人类理解,在空间维度上准确,并有效地突显视觉输入中的重要对象或位置。可解释特征提取器被集成到快速和数据高效彩虹框架中,并在57款ATARI游戏中进行了评估,以展示所提方法在空间保存、可解释性和数据效率方面的有效性。最后,我们通过将IFE整合到异步优势动作-评论者模型中展示了我们方法的通用性。