LLM2D

摘要

传统观点认为，策略梯度方法比动作价值方法更适合处理复杂的动作空间。然而，基础研究表明，在小型有限动作空间中，这两种方法是等价的（O'Donoghue等人，2017；Schulman等人，2017a）。这引发了一个问题：为什么随着动作空间复杂度的增加，它们的计算适用性和性能会发生分歧？我们假设，在这些情况下，策略梯度方法的明显优越性并非源于该方法的内在特性，而是源于一些普遍原则，这些原则也可以应用于动作价值方法，以实现类似的功能。我们确定了三个这样的原则，并提供了一个框架来将它们融入动作价值方法。为了支持我们的假设，我们在这个框架中实例化了我们称之为QMLE的方法，即带有最大似然估计的Q学习。我们的结果表明，QMLE可以应用于复杂的动作空间，其可控计算成本与策略梯度方法相当，而且不需要使用策略梯度。此外，QMLE在DeepMind Control Suite上表现出强大的性能，甚至与DMPO和D4PG等最先进的方法相比也是如此。