LLM2D
PRISM:一种在 noisy 示范下具有鲁棒性的基于技能的元强化学习框架
PRISM: A Robust Framework for Skill-based Meta-Reinforcement Learning with Noisy Demonstrations
作者: Sanghyeon Lee, Sangjun Bae, Yisak Park, Seungyul Han
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.03752v2

摘要

arXiv:2502.03752v2 类型: replace-cross 摘要:元强化学习(Meta-RL)促进了对未见过任务的快速适应,但在长期环境中面临挑战。基于技能的方法通过将状态-动作序列分解为可重用的技能并采用层次决策来应对这一挑战。然而,这些方法对嘈杂的离线演示数据非常敏感,导致技能学习不稳定并降低了性能。为了解决这个问题,我们提出了一种名为优先精炼基于技能的元强化学习(PRISM)的稳健框架,该框架通过在嘈杂数据附近进行探索来生成在线轨迹,并将这些轨迹与离线数据结合。通过优先筛选,PRISM 提取高质量数据以有效学习任务相关的技能。通过解决噪声的影响,我们的方法确保技能学习的稳定性,即使在嘈杂和次优数据的情况下也能在长期任务中实现优异的性能。