LLM2D

摘要

大型语言模型在众多自然语言处理任务中已经取代了传统方法。然而，当在具身环境中作为代理使用时，它们往往会面临其内在知识和环境知识之间不匹配的问题，导致行动不可行。传统的环境对齐方法，例如基于专家轨迹的监督学习和强化学习，分别在覆盖环境知识和实现高效收敛方面遇到了局限性。受人类学习的启发，我们提出了一种基于探索的错误校正学习 (E2CL) 框架，该框架利用探索引起的错误和环境反馈来增强具身代理的环境对齐。E2CL 结合了教师引导和无教师探索来收集环境反馈并纠正错误行为。代理学习提供反馈并自我纠正，从而增强其对目标环境的适应性。在 VirtualHome 环境中进行的大量实验表明，经过 E2CL 训练的代理优于经过基线方法训练的代理，并表现出优异的自我纠正能力。