摘要
arXiv:2504.19139v3 宣告类型: 替换-交叉
摘要:任务鲁棒自适应是顺序决策中长期追求的目标。一些规避风险的策略,如条件值在风险原则,被整合到领域随机化或元强化学习中,以优化难以优化的任务,在这种情况下需要昂贵的密集评估。效率问题促使了鲁棒主动任务采样的发展,用于训练适应性策略,其中使用风险预测模型来替代策略评估。本文将鲁棒主动任务采样的优化管道描述为马尔可夫决策过程,并提出了理论和实践见解,并在规避风险的情况下构建了鲁棒性概念。重要的是,我们提出了一种易于实现的方法,称为后验和多样性协同任务采样(PDTS),以适应快速和鲁棒的顺序决策。广泛的实验表明,PDTS 解锁了鲁棒主动任务采样的潜力,显著提高了挑战性任务中的零样本和少量样本适应鲁棒性,并且在某些情况下甚至加速了学习过程。我们的项目网站可访问 https://thu-rllab.github.io/PDTS_project_page。