LLM2D
BlendRL: 一种符号与神经策略学习融合的框架
BlendRL: A Framework for Merging Symbolic and Neural Policy Learning
作者: Hikaru Shindo, Quentin Delfosse, Devendra Singh Dhami, Kristian Kersting
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2410.11689v2

摘要

arXiv:2410.11689v2 宣告类型: 替换-交叉 摘要:人类能够结合符号推理和直觉反应。相比之下,强化学习策略通常被编码为不透明的系统(如神经网络)或依赖于预定义符号和规则的符号系统。这种分离的方法严重限制了智能体的能力,因为它们往往缺乏神经智能体所具备的灵活低级反应特性,或者缺乏符号智能体所具备的可解释推理能力。为了克服这一挑战,我们引入了BlendRL,这是一种结合了逻辑和神经政策的神经符号RL框架,能够和谐地将两种范式整合到使用混合策略的RL智能体中。我们实证展示了BlendRL智能体在标准 Atari 环境中优于纯神经和纯符号基线智能体,并展示了其对环境变化的鲁棒性。此外,我们分析了神经策略和符号策略之间的交互,展示了它们的混合使用如何帮助智能体克服彼此的局限性。