LLM2D

摘要

人类可以通过计划、推理和预测行动结果来执行具有长期目标的复杂任务。为了使具身智能体获得类似的能力，它们必须获得可转移到新场景的环境知识，同时限制额外的试错成本。基于学习的方法，如深度强化学习，可以从数据中发现并利用应用领域的固有规律和特征，并不断提高其性能，但代价是需要大量训练数据。本论文探讨了用于空间推理和规划任务的数据驱动技术的发展，重点是提高学习效率、可解释性和跨新场景的可转移性。本论文做出了四个主要贡献：1）CALVIN，一种微分规划器，它学习世界可解释模型以进行长期规划。它通过从专家演示中学习奖励和状态转换，成功地在部分可观察的 3D 环境（如迷宫和室内房间）中导航。2）SOAP，一种强化学习算法，它为长时程任务无监督地发现选项。选项将任务分割成子任务，并能够一致地执行子任务。SOAP 在历史条件走廊任务以及 Atari 等经典基准测试中表现出稳健的性能。3）LangProp，一个使用大型语言模型进行代码优化的框架，用于解决需要推理的具身智能体问题，将代码视为可学习的策略。该框架在 CARLA 自动驾驶基准测试中成功生成了可解释的代码，其性能与人类编写的专家代码相当或优于后者。4）Voggite，一个具身智能体，其视觉到动作转换器后端可以在 Minecraft 中解决复杂的任务。它通过识别动作触发器将任务分割成多个阶段，在 MineRL BASALT 竞赛中取得了第三名。