LLM2D

摘要

本文旨在提出一种新的具有虚拟对抗玩家的 Q 学习算法，称为虚拟对抗 Q 学习 (DAQ)，该算法可以有效地调节标准 Q 学习中的过高估计偏差。有了虚拟玩家，学习可以被表述为一个二人零和博弈。所提出的 DAQ 将几种 Q 学习变体统一起来，以控制过高估计偏差，例如 maxmin Q 学习和 minmax Q 学习（本文提出），在一个框架内。所提出的 DAQ 是一种简单但有效的方法，可以通过虚拟对抗行为来抑制过高估计偏差，并且可以很容易地应用于现成的强化学习算法以提高性能。通过调整对抗性 Q 学习，从一个综合的角度分析了 DAQ 的有限时间收敛性。在各种基准环境下对建议的 DAQ 的性能进行了实证验证。