LLM2D

摘要

arXiv:2309.12716v2 通知类型: 替换-横跨摘要: 使用强化学习（RL）解决真实世界的复杂任务，而无需高质量的模拟环境或大量的离线数据，这可能会相当具有挑战性。在不完美的模拟环境中训练的在线RL代理可能会遭受严重的模拟到现实问题。虽然离线RL方法可以绕过对模拟器的需求，但通常对离线数据集的大小和质量提出了严格要求。最近出现的混合离线和在线RL提供了一个有吸引力的框架，可以结合有限的离线数据和不完美的模拟器，以实现政策学习的迁移。在本文中，我们开发了一个新的算法，称为H2O+，它提供了极大的灵活性，可以适应各种离线和在线学习方法的选择，同时考虑了真实环境和模拟环境之间的动态差距。通过广泛的模拟和真实世界机器人实验，我们展示了H2O+在高级跨域在线和离线RL算法中具有更好的性能和灵活性。