LLM2D
通过对抗行为抑制 Q 学习中的高估问题
Suppressing Overestimation in Q-Learning through Adversarial Behaviors
作者: HyeAnn Lee, Donghwan Lee
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2310.06286v3

摘要

本文旨在提出一种新的具有虚拟对抗玩家的 Q 学习算法,称为虚拟对抗 Q 学习 (DAQ),该算法可以有效地调节标准 Q 学习中的过高估计偏差。有了虚拟玩家,学习可以被表述为一个二人零和博弈。所提出的 DAQ 将几种 Q 学习变体统一起来,以控制过高估计偏差,例如 maxmin Q 学习和 minmax Q 学习(本文提出),在一个框架内。所提出的 DAQ 是一种简单但有效的方法,可以通过虚拟对抗行为来抑制过高估计偏差,并且可以很容易地应用于现成的强化学习算法以提高性能。通过调整对抗性 Q 学习,从一个综合的角度分析了 DAQ 的有限时间收敛性。在各种基准环境下对建议的 DAQ 的性能进行了实证验证。