摘要
在连续控制领域,深度强化学习(DRL)展现出令人鼓舞的结果。然而,DRL 对深度神经网络 (DNN) 的依赖导致了对大量数据和增加计算复杂度的需求。为了解决这个问题,本文提出了一种用于Actor-Critic强化学习 (RL) 算法的新型混合架构。该架构将广义学习系统 (BLS) 与 DNN 集成,旨在融合两种不同架构范式的优势。具体来说,评论家网络使用 BLS 实现,而行动者网络则使用 DNN 构建。对于评论家网络参数的估计,采用岭回归,而行动者网络的参数则通过梯度下降进行优化。通过将该算法应用于两个经典的连续控制任务来评估其有效性,并将其性能与广为人知的深度确定性策略梯度 (DDPG) 算法进行比较。数值结果表明,该算法在计算效率方面优于 DDPG 算法,并具有更快的学习轨迹。建议在未来的研究中探索将该算法应用于其他 Actor-Critic RL 算法。