LLM2D
基于探索的具身智能体错误修正学习
E2CL: Exploration-based Error Correction Learning for Embodied Agents
作者: Hanlin Wang, Chak Tou Leong, Jian Wang, Wenjie Li
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.03256v2

摘要

大型语言模型在众多自然语言处理任务中已经取代了传统方法。然而,当在具身环境中作为代理使用时,它们往往会面临其内在知识和环境知识之间不匹配的问题,导致行动不可行。传统的环境对齐方法,例如基于专家轨迹的监督学习和强化学习,分别在覆盖环境知识和实现高效收敛方面遇到了局限性。受人类学习的启发,我们提出了一种基于探索的错误校正学习 (E2CL) 框架,该框架利用探索引起的错误和环境反馈来增强具身代理的环境对齐。E2CL 结合了教师引导和无教师探索来收集环境反馈并纠正错误行为。代理学习提供反馈并自我纠正,从而增强其对目标环境的适应性。在 VirtualHome 环境中进行的大量实验表明,经过 E2CL 训练的代理优于经过基线方法训练的代理,并表现出优异的自我纠正能力。