摘要
arXiv:2411.15806v2 声明类型: replace-cross
摘要:在连续控制领域,深度强化学习(DRL)展示了令人鼓舞的结果。然而,DRL 对深度神经网络(DNN)的依赖导致了对大量数据和增加的计算成本的需求。为了解决这个问题,引入了一种新颖的混合演员-评论家强化学习(RL)框架。所提出的框架将广泛学习系统(BLS)与DNN结合起来,旨在融合这两种不同架构范式的优点。具体而言,评论家网络利用BLS通过岭回归快速进行价值估计,而演员网络保留DNN结构以优化策略梯度。这种混合设计是通用的,并能增强现有的演员-评论家算法。为了展示其 versatility,所提出的框架被集成到三种广泛使用的演员-评论家算法——深确定性策略梯度(DDPG)、软演员-评论家(SAC) 和 双延迟 DDPG(TD3) 中,从而产生 BLS 增强的变体。实验结果显示,所有 BLS 增强的版本在训练效率和准确性方面都超过了其原始版本。这些改进突显了所提出的框架在实时控制场景中的适用性,因为计算效率和快速适应性是关键因素。