LLM2D

摘要

arXiv:2504.16680v1 宣言类型: cross 摘要：强化学习（RL）在机器人控制方面展示了令人印象深刻的 capabilities，但仍然存在由于样本复杂性高、安全性问题以及模拟与真实环境之间的差距所带来的挑战。虽然离线 RL 通过利用预先收集的数据学习而消除了在真实世界中进行高风险探索的需要，但它会受到分布偏移的影响，从而限制了策略的泛化能力。基于模型的 RL（MBRL）通过利用预测模型来解决合成走棋，但在当前的实现中，许多方法缺乏稳健的不确定性估计，导致在离线设置中累积错误。我们引入了 Offline Robotic World Model（RWM-O），这是一种基于模型的方法，能够明确估计解说不确定性，从而改进策略学习，而不依赖于物理模拟器。通过将这些不确定性估计整合到策略优化中，我们的方法惩罚不可靠的转换，减少对模型错误的过度拟合，并提高稳定性。实验结果表明，RWM-O 改进了泛化能力和安全性，使策略学习仅依靠实际数据成为可能，并推动了可扩展和数据高效型的机器人 RL 发展。