摘要
arXiv:2502.02834v1 交叉类型:综合
摘要:元强化学习的目标是开发能够在来自任务分布的未见过的任务中泛化的策略。尽管基于上下文的元强化学习方法通过任务潜在变量改进了任务表示,但在处理分布外(OOD)任务时它们往往遇到困难。为了解决这个问题,我们提出了任务感知虚拟训练(TAVT),这是一种新颖的算法,利用基于度量的学习方法准确捕捉任务特征,不仅适用于训练场景,也适用于OOD场景。我们的方法成功地在虚拟任务中保留了任务特征,并采用了一种状态正则化技术来减轻状态变化环境中状态估计误差的过高估计。数值结果显示,TAVT在各种MuJoCo和MetaWorld环境中显著提高了对OOD任务的泛化能力。