LLM2D

摘要

arXiv:2504.02654v1 宣告类型: 新颖摘要: 我们提出了一种学习架构，该架构允许在深度神经网络中进行符号控制和引导的强化学习。我们引入了SymDQN，这是一种基于逻辑张量网络（LTNs）的神经符号框架的新模块化方法，扩展了现有的对分Deep Q-网络（DuelDQN）架构。这些模块引导动作策略学习，并使强化学习代理能够表现出与环境推理一致的行为。我们的实验是对这些模块进行的消融研究。该实验在代理在一个5x5网格环境中导航的强化学习环境中进行，该环境中存在各种形状，每个形状都与给定的奖励相关。基础的DuelDQN试图在这一环境中学习代理的最佳行为，而模块则有助于形状识别和奖励预测。我们展示了我们的架构在性能和代理的精确性方面显著提高了学习。SymDQN的模块化特性使我们能够探讨在强化学习中结合神经和符号方法的复杂性和细微之处。