摘要
arXiv:2505.08078v1 公告类型:交叉
摘要:从大量自主收集的数据中学习以改进策略——我们称之为批在线强化学习的一种范式——有望通过大幅减少数据收集所需的人力努力,同时利用自我改进的好处,使真正的可扩展机器人学习成为可能。然而,尽管这种范式具有潜在的优势,但在实现上仍然具有挑战性,因为算法无法有效从自主数据中学习。例如,之前的研究将模仿学习和过滤模仿学习方法应用于批在线RL问题,但这些算法往往无法有效地从自主收集的数据中进行改进,或者快速收敛到次优点。这提出了一个问题,即在机器人中,什么是有效的批在线RL的关键。受这一问题的启发,我们对三个维度进行了系统的实验研究——(i)算法类别,(ii)策略提取方法,以及(iii)策略表达能力——并分析这些维度如何影响性能和随自主数据量增加的扩展性。通过我们的分析,我们得出了几个观察结果。首先,我们发现使用Q函数来引导批在线RL可以显著提高性能,胜过基于模仿的方法。在此基础上,我们表明,通过选择策略分布中的最佳行动的隐式策略提取方法是必要的,而不同于传统的来自离线RL的策略提取方法。接着,我们表明,具有较强表达能力的策略类别比较弱表达能力的策略类别更受欢迎。基于这些分析,我们提出了一个通用的批在线RL有效性的食谱。随后,我们展示了在食谱中使用时间相关噪声的简单添加,以获得更多的多样性,从而进一步提高性能。我们的食谱与先前的方法相比,获得了显著更好的性能和扩展性。