LLM2D

摘要

arXiv:2505.08078v1 公告类型：交叉摘要：从大量自主收集的数据中学习以改进策略——我们称之为批在线强化学习的一种范式——有望通过大幅减少数据收集所需的人力努力，同时利用自我改进的好处，使真正的可扩展机器人学习成为可能。然而，尽管这种范式具有潜在的优势，但在实现上仍然具有挑战性，因为算法无法有效从自主数据中学习。例如，之前的研究将模仿学习和过滤模仿学习方法应用于批在线RL问题，但这些算法往往无法有效地从自主收集的数据中进行改进，或者快速收敛到次优点。这提出了一个问题，即在机器人中，什么是有效的批在线RL的关键。受这一问题的启发，我们对三个维度进行了系统的实验研究——（i）算法类别，（ii）策略提取方法，以及（iii）策略表达能力——并分析这些维度如何影响性能和随自主数据量增加的扩展性。通过我们的分析，我们得出了几个观察结果。首先，我们发现使用Q函数来引导批在线RL可以显著提高性能，胜过基于模仿的方法。在此基础上，我们表明，通过选择策略分布中的最佳行动的隐式策略提取方法是必要的，而不同于传统的来自离线RL的策略提取方法。接着，我们表明，具有较强表达能力的策略类别比较弱表达能力的策略类别更受欢迎。基于这些分析，我们提出了一个通用的批在线RL有效性的食谱。随后，我们展示了在食谱中使用时间相关噪声的简单添加，以获得更多的多样性，从而进一步提高性能。我们的食谱与先前的方法相比，获得了显著更好的性能和扩展性。