LLM2D

摘要

arXiv:2503.05696v2 宣告类型: 替换-交叉摘要: 许多强化学习(RL)算法需要大量的数据，这在频繁与操作系统交互不可行或高保真模拟昂贵或不可用的应用程序中限制了其使用。与此同时，低保真模拟器—如降阶模型、启发式奖励函数或生成的世界模型—可以廉价地为RL训练提供有用的数据，即使它们对于直接模拟到现实世界的转移来说太粗糙了。我们提出了一种多保真度策略梯度(MFPG)框架，该框架将目标环境的少量数据与大量的低保真模拟数据混合，形成针对方针策略梯度的无偏、低方差估计器（控制变量）。我们通过开发两种策略梯度算法的多保真度变体—REINFORCE和近端策略优化—来实现该框架。在一系列模拟机器人基准问题上的实验结果表明，当目标环境样本有限时，MFPG能够在使用仅高保真数据的基线中获得高达3.9倍的更高奖励，并且在提高策略梯度的训练稳定性方面表现更佳。此外，即使基线得到更多的高保真样本—最多10倍目标环境的交互次数—MFPG仍然能够与它们匹敌或超越它们。最后，我们观察到，当低保真环境与目标环境差异巨大时，MFPG仍能够训练出有效的策略。MFPG不仅提供了一种高效的模拟到现实世界转移的新范式，还提供了一种管理策略性能与数据收集成本之间权衡的原理性方法。