摘要
arXiv:2309.12716v2 通知类型: 替换-横跨
摘要: 使用强化学习(RL)解决真实世界的复杂任务,而无需高质量的模拟环境或大量的离线数据,这可能会相当具有挑战性。在不完美的模拟环境中训练的在线RL代理可能会遭受严重的模拟到现实问题。虽然离线RL方法可以绕过对模拟器的需求,但通常对离线数据集的大小和质量提出了严格要求。最近出现的混合离线和在线RL提供了一个有吸引力的框架,可以结合有限的离线数据和不完美的模拟器,以实现政策学习的迁移。在本文中,我们开发了一个新的算法,称为H2O+,它提供了极大的灵活性,可以适应各种离线和在线学习方法的选择,同时考虑了真实环境和模拟环境之间的动态差距。通过广泛的模拟和真实世界机器人实验,我们展示了H2O+在高级跨域在线和离线RL算法中具有更好的性能和灵活性。