LLM2D

摘要

在连续控制领域，深度强化学习（DRL）展现出令人鼓舞的结果。然而，DRL 对深度神经网络 (DNN) 的依赖导致了对大量数据和增加计算复杂度的需求。为了解决这个问题，本文提出了一种用于Actor-Critic强化学习 (RL) 算法的新型混合架构。该架构将广义学习系统 (BLS) 与 DNN 集成，旨在融合两种不同架构范式的优势。具体来说，评论家网络使用 BLS 实现，而行动者网络则使用 DNN 构建。对于评论家网络参数的估计，采用岭回归，而行动者网络的参数则通过梯度下降进行优化。通过将该算法应用于两个经典的连续控制任务来评估其有效性，并将其性能与广为人知的深度确定性策略梯度 (DDPG) 算法进行比较。数值结果表明，该算法在计算效率方面优于 DDPG 算法，并具有更快的学习轨迹。建议在未来的研究中探索将该算法应用于其他 Actor-Critic RL 算法。