LLM2D
无需批量更新、目标网络或回放缓冲区的深度策略梯度方法
Deep Policy Gradient Methods Without Batch Updates, Target Networks, or Replay Buffers
作者: Gautham Vasan, Mohamed Elsayed, Alireza Azimi, Jiamin He, Fahim Shariar, Colin Bellinger, Martha White, A. Rupam Mahmood
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15370v1

摘要

现代深度策略梯度方法在模拟机器人任务中取得了有效的性能,但它们都需要大型回放缓冲区或昂贵的批量更新,甚至两者兼而有之,这使得它们与资源受限的计算机的实际系统不相容。我们证明了当这些方法仅限于小型回放缓冲区或在增量学习过程中(其中更新仅使用最新的样本,无需批量更新或回放缓冲区)时,会灾难性地失败。我们提出了一种新颖的增量深度策略梯度方法——动作值梯度 (AVG)——以及一组归一化和缩放技术,以应对增量学习中不稳定性的挑战。在机器人模拟基准测试中,我们证明 AVG 是唯一能够有效学习的增量方法,其最终性能通常与批量策略梯度方法相当。这一进步使我们首次能够仅使用增量更新在真实机器人上实现有效的深度强化学习,使用了机器人机械臂和移动机器人。