LLM2D

摘要

arXiv:2411.15806v2 声明类型: replace-cross 摘要：在连续控制领域，深度强化学习（DRL）展示了令人鼓舞的结果。然而，DRL 对深度神经网络（DNN）的依赖导致了对大量数据和增加的计算成本的需求。为了解决这个问题，引入了一种新颖的混合演员-评论家强化学习（RL）框架。所提出的框架将广泛学习系统（BLS）与DNN结合起来，旨在融合这两种不同架构范式的优点。具体而言，评论家网络利用BLS通过岭回归快速进行价值估计，而演员网络保留DNN结构以优化策略梯度。这种混合设计是通用的，并能增强现有的演员-评论家算法。为了展示其 versatility，所提出的框架被集成到三种广泛使用的演员-评论家算法——深确定性策略梯度（DDPG）、软演员-评论家（SAC）和双延迟 DDPG（TD3）中，从而产生 BLS 增强的变体。实验结果显示，所有 BLS 增强的版本在训练效率和准确性方面都超过了其原始版本。这些改进突显了所提出的框架在实时控制场景中的适用性，因为计算效率和快速适应性是关键因素。