LLM2D

摘要

arXiv:2504.19139v3 宣告类型: 替换-交叉摘要：任务鲁棒自适应是顺序决策中长期追求的目标。一些规避风险的策略，如条件值在风险原则，被整合到领域随机化或元强化学习中，以优化难以优化的任务，在这种情况下需要昂贵的密集评估。效率问题促使了鲁棒主动任务采样的发展，用于训练适应性策略，其中使用风险预测模型来替代策略评估。本文将鲁棒主动任务采样的优化管道描述为马尔可夫决策过程，并提出了理论和实践见解，并在规避风险的情况下构建了鲁棒性概念。重要的是，我们提出了一种易于实现的方法，称为后验和多样性协同任务采样（PDTS），以适应快速和鲁棒的顺序决策。广泛的实验表明，PDTS 解锁了鲁棒主动任务采样的潜力，显著提高了挑战性任务中的零样本和少量样本适应鲁棒性，并且在某些情况下甚至加速了学习过程。我们的项目网站可访问 https://thu-rllab.github.io/PDTS_project_page。