LLM2D
将线性回归和拟牛顿方法应用于连续动作情况下的深度强化学习
Application of linear regression and quasi-Newton methods to the deep reinforcement learning in continuous action cases
作者: Hisato Komatsu
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2503.14976v3

摘要

arXiv:2503.14976v3 公告类型: 替换-横跨 摘要:线性回归(LR)方法的优点在于可以相对容易地计算出最优参数,尽管其表示能力有限,不及深度学习技术。为了改进深度强化学习,Levine等人提出了最少二乘深度Q网络(LS-DQN)方法,该方法将深度Q网络(DQN)与LR方法结合在了一起。然而,LS-DQN方法假设动作是离散的。在本研究中,我们提出了双重最少二乘深度确定性策略梯度(DLS-DDPG)方法来解决这一限制。该方法结合了LR方法和深度确定性策略梯度(DDPG)技术,后者是用于连续动作情况的代表性深度强化学习算法之一。对于批评网络的LR更新,DLS-DDPG使用了一种类似于调整后的Q迭代的算法,这是LS-DQN所采用的方法。此外,我们使用拟牛顿方法计算出了最优动作,并将其作为代理动作和行动者网络的LR更新的训练数据。在MuJoCo环境中进行的数值实验表明,所提出的方法至少在某些任务中提高了性能,尽管存在如正则化项难以减小等困难。