LLM2D
深度具身智能体中的空间推理与规划
Spatial Reasoning and Planning for Deep Embodied Agents
作者: Shu Ishida
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19479v1

摘要

人类可以通过计划、推理和预测行动结果来执行具有长期目标的复杂任务。为了使具身智能体获得类似的能力,它们必须获得可转移到新场景的环境知识,同时限制额外的试错成本。基于学习的方法,如深度强化学习,可以从数据中发现并利用应用领域的固有规律和特征,并不断提高其性能,但代价是需要大量训练数据。本论文探讨了用于空间推理和规划任务的数据驱动技术的发展,重点是提高学习效率、可解释性和跨新场景的可转移性。本论文做出了四个主要贡献:1)CALVIN,一种微分规划器,它学习世界可解释模型以进行长期规划。它通过从专家演示中学习奖励和状态转换,成功地在部分可观察的 3D 环境(如迷宫和室内房间)中导航。2)SOAP,一种强化学习算法,它为长时程任务无监督地发现选项。选项将任务分割成子任务,并能够一致地执行子任务。SOAP 在历史条件走廊任务以及 Atari 等经典基准测试中表现出稳健的性能。3)LangProp,一个使用大型语言模型进行代码优化的框架,用于解决需要推理的具身智能体问题,将代码视为可学习的策略。该框架在 CARLA 自动驾驶基准测试中成功生成了可解释的代码,其性能与人类编写的专家代码相当或优于后者。4)Voggite,一个具身智能体,其视觉到动作转换器后端可以在 Minecraft 中解决复杂的任务。它通过识别动作触发器将任务分割成多个阶段,在 MineRL BASALT 竞赛中取得了第三名。