LLM2D

摘要

arXiv:2501.03888v2 宣告类型: 替换摘要: 尽管深度强化学习已被证明是有效的，但模型的黑盒特性阻碍了直接策略解释。为了解决这一问题，我们提出了一种称为神经DNF-MT的神经符号方法，用于端到端策略学习。神经DNF-MT模型的可微性质使其能够使用深度actor-critic算法进行训练。同时，其架构被设计成使得训练后的模型可以直接翻译成用标准（二值或概率）逻辑程序表达的可解释策略。此外，还可以添加额外的层来从复杂观察中提取抽象特征，作为一种谓词发明的形式。逻辑表示具有高度可解释性，我们展示了如何编辑确定性策略的标准表示形式，并将其重新包含到神经模型中，从而实现手动干预和学习策略的适应。我们在多种任务上评估了我们的方法，这些任务需要从不同形式的观察中学习确定性或随机行为。我们的实验结果表明，我们的神经DNF-MT模型在与竞争的黑盒方法相当的同时提供了可解释的策略。