LLM2D
PRISM:一种在噪声示范情况下具备鲁棒性的基于技能的元强化学习框架
PRISM: A Robust Framework for Skill-based Meta-Reinforcement Learning with Noisy Demonstrations
作者: Sanghyeon Lee, Sangjun Bae, Yisak Park, Seungyul Han
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.03752v1

摘要

arXiv:2502.03752v1 交叉公告类型 摘要:元强化学习(Meta-RL)促进了对未见过的任务的快速适应,但在长时环境中面临挑战。基于技能的方法通过将状态-动作序列分解为可重用的技能并采用分层决策来应对这一挑战。然而,这些方法对有噪声的离线演示非常敏感,导致技能学习不稳定且性能下降。为克服这一问题,我们提出了一种名为技能基于元强化学习优先细化框架(PRISM)的鲁棒框架,该框架结合了在有噪声数据附近进行探索以生成在线轨迹,并将其与离线数据结合。通过优先化,PRISM提取高质量的数据以有效地学习任务相关技能。通过解决噪声的影响,我们的方法确保技能学习的稳定性,并在长时任务中表现出色,即使使用有噪声和次优的数据也是如此。