LLM2D

摘要

arXiv:2504.19139v2 宣告类型: replace-cross 摘要：任务鲁棒适应是顺序决策领域的长期追求。一些风险厌恶策略，例如条件值-at-风险原则，被纳入领域随机化或元强化学习中，以在优化中优先考虑困难的任务，这需要昂贵的密集评估。效率问题促使了鲁棒主动任务采样的发展，用于培训适应性策略，其中使用风险预测模型来替代策略评估。本工作将鲁棒主动任务采样的优化管道建模为马尔可夫决策过程，提出理论和实践洞察，并在风险厌恶场景中构成鲁棒性概念。重要的是，我们提出了一种易于实现的方法，称为后验与多样性协同任务采样（PDTS），以适应快速且鲁棒的顺序决策。广泛的实验表明，PDTS 解锁了鲁棒主动任务采样的潜力，显著提高了在挑战性任务中的零样本和少样本适应鲁棒性，并且在某些场景下甚至加快了学习过程。我们的项目网站位于 https://thu-rllab.github.io/PDTS_project_page。