LLM2D

摘要

arXiv:2504.19139v1 宣传类型：交叉摘要：在顺序决策中，任务稳健适应是一个长期追求的目标。一些规避风险的策略，例如条件价值在风险原则，被融入领域随机化或元强化学习中，以在优化中优先考虑困难的任务，这需要大量昂贵的密集评估。效率问题促使发展了稳健的主动任务采样来训练适应性策略，其中使用了风险预测模型来替代策略评估。本工作将稳健的主动任务采样优化管道描述为马尔可夫决策过程，提出理论和实践见解，并在规避风险的情境中构成稳健性概念。重要的是，我们提出了一种易于实现的方法，称为后验和多样性协同任务采样（PDTS）。广泛的经验研究表明，PDTS 解锁了稳健的主动任务采样的潜力，显著提高了具有挑战性任务的零样本和少量样本适应的稳健性，并且在某些情境下甚至加速了学习过程。我们的项目网站为 https://thu-rllab.github.io/PDTS_project_page。