LLM2D

摘要

arXiv:2410.11689v2 宣告类型: 替换-交叉摘要：人类能够结合符号推理和直觉反应。相比之下，强化学习策略通常被编码为不透明的系统（如神经网络）或依赖于预定义符号和规则的符号系统。这种分离的方法严重限制了智能体的能力，因为它们往往缺乏神经智能体所具备的灵活低级反应特性，或者缺乏符号智能体所具备的可解释推理能力。为了克服这一挑战，我们引入了BlendRL，这是一种结合了逻辑和神经政策的神经符号RL框架，能够和谐地将两种范式整合到使用混合策略的RL智能体中。我们实证展示了BlendRL智能体在标准 Atari 环境中优于纯神经和纯符号基线智能体，并展示了其对环境变化的鲁棒性。此外，我们分析了神经策略和符号策略之间的交互，展示了它们的混合使用如何帮助智能体克服彼此的局限性。