LLM2D
在无策略梯度的情况下学习复杂动作空间
Learning in complex action spaces without policy gradients
作者: Arash Tavakoli, Sina Ghiassian, Nemanja Raki\'cevi\'c
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06317v1

摘要

传统观点认为,策略梯度方法比动作价值方法更适合处理复杂的动作空间。然而,基础研究表明,在小型有限动作空间中,这两种方法是等价的(O'Donoghue等人,2017;Schulman等人,2017a)。这引发了一个问题:为什么随着动作空间复杂度的增加,它们的计算适用性和性能会发生分歧?我们假设,在这些情况下,策略梯度方法的明显优越性并非源于该方法的内在特性,而是源于一些普遍原则,这些原则也可以应用于动作价值方法,以实现类似的功能。我们确定了三个这样的原则,并提供了一个框架来将它们融入动作价值方法。为了支持我们的假设,我们在这个框架中实例化了我们称之为QMLE的方法,即带有最大似然估计的Q学习。我们的结果表明,QMLE可以应用于复杂的动作空间,其可控计算成本与策略梯度方法相当,而且不需要使用策略梯度。此外,QMLE在DeepMind Control Suite上表现出强大的性能,甚至与DMPO和D4PG等最先进的方法相比也是如此。