LLM2D

摘要

由于深度神经网络固有的缺乏透明性，深度强化学习 (DRL) 智能体难以获得用户的信任和认可，尤其是在医疗诊断和军事行动等安全关键型应用中。现有的解释智能体决策的方法，要么需要使用支持解释生成的模型重新训练智能体，要么依赖于基于扰动的技术来揭示不同输入特征在决策过程中的重要性。然而，重新训练智能体可能会影响其完整性和性能，而基于扰动的方法性能有限，且缺乏知识积累或学习能力。此外，由于每次扰动都是独立进行的，扰动输入的联合状态可能在物理上没有意义。为了解决这些挑战，我们引入了 **VisionMask**，这是一个端到端训练的独立解释模型，用于识别智能体视觉输入中能够解释其行为的最关键区域。VisionMask 以自监督的方式进行训练，无需依赖人工生成的标签。重要的是，它的训练不会改变智能体模型，从而保持智能体的性能和完整性。我们在超级马里奥兄弟 (SMB) 和三个 Atari 游戏上评估了 VisionMask。与现有方法相比，VisionMask 在根据所选视觉解释重现原始动作方面，插入精度提高了 14.9%，F1 分数提高了 30.08%。我们还提供了示例，说明如何将 VisionMask 用于反事实分析。