LLM2D
神经DNF-MT:一种可解释和可编辑策略的神经符号方法
Neural DNF-MT: A Neuro-symbolic Approach for Learning Interpretable and Editable Policies
作者: Kexin Gu Baugh, Luke Dickens, Alessandra Russo
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2501.03888v2

摘要

arXiv:2501.03888v2 宣告类型: 替换 摘要: 尽管深度强化学习已被证明是有效的,但模型的黑盒特性阻碍了直接策略解释。为了解决这一问题,我们提出了一种称为神经DNF-MT的神经符号方法,用于端到端策略学习。神经DNF-MT模型的可微性质使其能够使用深度actor-critic算法进行训练。同时,其架构被设计成使得训练后的模型可以直接翻译成用标准(二值或概率)逻辑程序表达的可解释策略。此外,还可以添加额外的层来从复杂观察中提取抽象特征,作为一种谓词发明的形式。逻辑表示具有高度可解释性,我们展示了如何编辑确定性策略的标准表示形式,并将其重新包含到神经模型中,从而实现手动干预和学习策略的适应。我们在多种任务上评估了我们的方法,这些任务需要从不同形式的观察中学习确定性或随机行为。我们的实验结果表明,我们的神经DNF-MT模型在与竞争的黑盒方法相当的同时提供了可解释的策略。