LLM2D

摘要

arXiv:2503.14976v3 公告类型: 替换-横跨摘要：线性回归（LR）方法的优点在于可以相对容易地计算出最优参数，尽管其表示能力有限，不及深度学习技术。为了改进深度强化学习，Levine等人提出了最少二乘深度Q网络（LS-DQN）方法，该方法将深度Q网络（DQN）与LR方法结合在了一起。然而，LS-DQN方法假设动作是离散的。在本研究中，我们提出了双重最少二乘深度确定性策略梯度（DLS-DDPG）方法来解决这一限制。该方法结合了LR方法和深度确定性策略梯度（DDPG）技术，后者是用于连续动作情况的代表性深度强化学习算法之一。对于批评网络的LR更新，DLS-DDPG使用了一种类似于调整后的Q迭代的算法，这是LS-DQN所采用的方法。此外，我们使用拟牛顿方法计算出了最优动作，并将其作为代理动作和行动者网络的LR更新的训练数据。在MuJoCo环境中进行的数值实验表明，所提出的方法至少在某些任务中提高了性能，尽管存在如正则化项难以减小等困难。