LLM2D

摘要

近期基于模仿学习的方法在通过模仿观察-动作空间中的行为进行规划方面取得了可喜的成果。然而，它们在开放环境中的能力仍然受到限制，尤其是在长序列任务中。相比之下，传统的符号规划通过对人工定义的符号空间进行逻辑推理，在长序列任务中表现出色，但难以处理超出符号状态的观测，例如现实场景中遇到的高维视觉输入。在这项工作中，我们从溯因学习中汲取灵感，并引入一个新颖的框架——溯因模仿学习 (ABIL)，它整合了数据驱动学习和基于符号的推理的优势，从而实现长序列规划。具体来说，我们运用溯因推理来理解符号空间中的演示，并设计了序列一致性原则来解决感知和推理之间的冲突。ABIL 生成谓词候选来促进从原始观测到符号空间的感知，无需费力的谓词标注，为符号规划奠定了基础。通过符号理解，我们进一步开发了一个策略集合，其基础策略是基于不同的逻辑目标构建的，并通过符号推理进行管理。实验表明，我们的方法成功地利用与任务相关的符号理解观测结果，以辅助模仿学习。重要的是，ABIL 在各种长序列任务中显著提高了数据效率和泛化能力，突显了其作为长序列规划的一种有前景的解决方案。项目网站：\url{https://www.lamda.nju.edu.cn/shaojj/KDD25_ABIL/}