LLM2D

摘要

arXiv:2502.13187v1 宣布类型: cross 摘要：深度强化学习（RL）已经在各个领域，如机器人技术、交通、推荐系统等中被探索并证实为解决决策任务的有效方法。它通过与环境的交互学习，并利用收集的经验更新策略。然而，由于有限的现实世界数据和执行有害行为的不可承受后果，RL策略的学习主要局限于模拟器中。这种做法在学习过程中保证了安全性，但是在部署时不可避免地引入了模拟到现实之间的差距，从而导致执行时性能下降和风险增加。不同领域中已经尝试通过各种技术解决模拟到现实的问题，尤其是借助大型基础模型或语言模型等新兴技术，这些技术已经照亮了模拟到现实的路径。据我们所知，这篇综述论文是首次正式从马尔可夫决策过程的关键元素（状态、动作、转换和奖励）的角度对模拟到现实的方法进行分类。基于这一框架，我们涵盖了从经典方法到最先进方法的全面文献，包括由基础模型增强的模拟到现实技术，并讨论了在不同模拟到现实问题领域中值得关注的特色。然后，我们总结了模拟到现实性能的形式评估过程，包括可获取的代码或基准。同时，我们提出了挑战和机遇，以鼓励未来在这个方向上的探索，并且我们正在积极维护一个最新的模拟到现实研究结果的列表，以帮助研究人员在他们的工作中使用。