摘要
近期基于模仿学习的方法在通过模仿观察-动作空间中的行为进行规划方面取得了可喜的成果。然而,它们在开放环境中的能力仍然受到限制,尤其是在长序列任务中。相比之下,传统的符号规划通过对人工定义的符号空间进行逻辑推理,在长序列任务中表现出色,但难以处理超出符号状态的观测,例如现实场景中遇到的高维视觉输入。在这项工作中,我们从溯因学习中汲取灵感,并引入一个新颖的框架——溯因模仿学习 (ABIL),它整合了数据驱动学习和基于符号的推理的优势,从而实现长序列规划。具体来说,我们运用溯因推理来理解符号空间中的演示,并设计了序列一致性原则来解决感知和推理之间的冲突。ABIL 生成谓词候选来促进从原始观测到符号空间的感知,无需费力的谓词标注,为符号规划奠定了基础。通过符号理解,我们进一步开发了一个策略集合,其基础策略是基于不同的逻辑目标构建的,并通过符号推理进行管理。实验表明,我们的方法成功地利用与任务相关的符号理解观测结果,以辅助模仿学习。重要的是,ABIL 在各种长序列任务中显著提高了数据效率和泛化能力,突显了其作为长序列规划的一种有前景的解决方案。项目网站:\url{https://www.lamda.nju.edu.cn/shaojj/KDD25_ABIL/}