摘要
arXiv:2410.11689v2 宣告类型: 替换-交叉
摘要:人类能够结合符号推理和直觉反应。相比之下,强化学习策略通常被编码为不透明的系统(如神经网络)或依赖于预定义符号和规则的符号系统。这种分离的方法严重限制了智能体的能力,因为它们往往缺乏神经智能体所具备的灵活低级反应特性,或者缺乏符号智能体所具备的可解释推理能力。为了克服这一挑战,我们引入了BlendRL,这是一种结合了逻辑和神经政策的神经符号RL框架,能够和谐地将两种范式整合到使用混合策略的RL智能体中。我们实证展示了BlendRL智能体在标准 Atari 环境中优于纯神经和纯符号基线智能体,并展示了其对环境变化的鲁棒性。此外,我们分析了神经策略和符号策略之间的交互,展示了它们的混合使用如何帮助智能体克服彼此的局限性。