LLM2D
快速且稳健:随机环境中文本任务采样与后验及多样性协同适应决策制定方法
Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19139v1

摘要

arXiv:2504.19139v1 宣传类型:交叉 摘要:在顺序决策中,任务稳健适应是一个长期追求的目标。一些规避风险的策略,例如条件价值在风险原则,被融入领域随机化或元强化学习中,以在优化中优先考虑困难的任务,这需要大量昂贵的密集评估。效率问题促使发展了稳健的主动任务采样来训练适应性策略,其中使用了风险预测模型来替代策略评估。本工作将稳健的主动任务采样优化管道描述为马尔可夫决策过程,提出理论和实践见解,并在规避风险的情境中构成稳健性概念。重要的是,我们提出了一种易于实现的方法,称为后验和多样性协同任务采样(PDTS)。广泛的经验研究表明,PDTS 解锁了稳健的主动任务采样的潜力,显著提高了具有挑战性任务的零样本和少量样本适应的稳健性,并且在某些情境下甚至加速了学习过程。我们的项目网站为 https://thu-rllab.github.io/PDTS_project_page。