摘要
arXiv:2502.02834v2 任务类型: replace-cross
摘要:元强化学习旨在开发能够泛化到从任务分布中采样的未见任务的策略。虽然基于上下文的元RL方法通过任务潜在变量提高任务表示,但在处理分布外(OOD)任务时它们往往会遇到困难。为了解决这一问题,我们提出了一种名为任务感知虚拟训练(TAVT)的新颖算法,该算法利用基于度量的表示学习准确捕捉训练和OOD场景中的任务特征。我们的方法成功地在虚拟任务中保留了任务特征,并采用了一个状态正则化技术来缓解状态变化环境中估计误差的过度放大。数值结果表明,TAVT在各种MuJoCo和MetaWorld环境中显著提高了对OOD任务的泛化能力。