摘要
arXiv:2504.19139v2 宣告类型: replace-cross
摘要:任务鲁棒适应是顺序决策领域的长期追求。一些风险厌恶策略,例如条件值-at-风险原则,被纳入领域随机化或元强化学习中,以在优化中优先考虑困难的任务,这需要昂贵的密集评估。效率问题促使了鲁棒主动任务采样的发展,用于培训适应性策略,其中使用风险预测模型来替代策略评估。本工作将鲁棒主动任务采样的优化管道建模为马尔可夫决策过程,提出理论和实践洞察,并在风险厌恶场景中构成鲁棒性概念。重要的是,我们提出了一种易于实现的方法,称为后验与多样性协同任务采样(PDTS),以适应快速且鲁棒的顺序决策。广泛的实验表明,PDTS 解锁了鲁棒主动任务采样的潜力,显著提高了在挑战性任务中的零样本和少样本适应鲁棒性,并且在某些场景下甚至加快了学习过程。我们的项目网站位于 https://thu-rllab.github.io/PDTS_project_page。