摘要
我们专注于离线模仿学习 (IL),其目标是在不与环境交互的情况下,利用演示来模仿专家的行为。离线 IL 的主要挑战之一是专家演示的支持有限,通常仅涵盖状态-动作空间的一小部分。虽然可能无法获得大量专家演示,但通常可以收集更多次优演示。例如,在治疗优化问题中,不同慢性病可获得不同级别的医生治疗。这些治疗范围从治疗专家和经验丰富的全科医生到经验不足的全科医生。类似地,当机器人被训练来模仿人类执行日常任务时,它们可能会从不同专业水平和效率的人那里学习。
在本文中,我们提出了一种离线 IL 方法,该方法利用更大的次优演示集,同时有效地模仿专家轨迹。现有的基于行为克隆或分布匹配的离线 IL 方法通常面临着诸如过度拟合有限的专家演示集或无意中模仿来自更大数据集的次优轨迹等问题。我们的方法基于逆软 Q 学习,从专家和次优演示中学习。它为与专家演示对齐分配更高的重要性(通过学习的权重),而为与次优演示对齐分配更低的重要性。我们方法的关键贡献,称为 SPRINQL,是将离线 IL 问题转化为 Q 函数空间上的凸优化问题。通过全面的实验评估,我们证明了 SPRINQL 算法在离线 IL 基准测试中实现了最先进 (SOTA) 的性能。代码可在 https://github.com/hmhuy0/SPRINQL 获取。