LLM2D
模仿到现实方法在强化学习中的综述:基于基础模型的进展、前景和挑战
A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models
作者: Longchao Da, Justin Turnau, Thirulogasankar Pranav Kutralingam, Alvaro Velasquez, Paulo Shakarian, Hua Wei
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13187v1

摘要

arXiv:2502.13187v1 宣布类型: cross 摘要:深度强化学习(RL)已经在各个领域,如机器人技术、交通、推荐系统等中被探索并证实为解决决策任务的有效方法。它通过与环境的交互学习,并利用收集的经验更新策略。然而,由于有限的现实世界数据和执行有害行为的不可承受后果,RL策略的学习主要局限于模拟器中。这种做法在学习过程中保证了安全性,但是在部署时不可避免地引入了模拟到现实之间的差距,从而导致执行时性能下降和风险增加。不同领域中已经尝试通过各种技术解决模拟到现实的问题,尤其是借助大型基础模型或语言模型等新兴技术,这些技术已经照亮了模拟到现实的路径。据我们所知,这篇综述论文是首次正式从马尔可夫决策过程的关键元素(状态、动作、转换和奖励)的角度对模拟到现实的方法进行分类。基于这一框架,我们涵盖了从经典方法到最先进方法的全面文献,包括由基础模型增强的模拟到现实技术,并讨论了在不同模拟到现实问题领域中值得关注的特色。然后,我们总结了模拟到现实性能的形式评估过程,包括可获取的代码或基准。同时,我们提出了挑战和机遇,以鼓励未来在这个方向上的探索,并且我们正在积极维护一个最新的模拟到现实研究结果的列表,以帮助研究人员在他们的工作中使用。