LLM2D

摘要

利用大型语言模型（LLM）赋能具身智能体已成为一种流行方法，但在实践中存在一些局限性。本研究并非直接将LLM用作智能体，而是探索将其作为具身智能体学习的工具。具体来说，为了通过离线强化学习（RL）训练独立的智能体，LLM被用来为训练数据集中的单个动作提供密集的奖励反馈。为此，我们提出了一种一致性引导的奖励集成框架（CoREN），旨在解决将LLM生成的估计值与目标环境领域相结合的难题。该框架采用自适应集成时空一致性奖励，以在训练数据集中导出基于领域的奖励，从而能够在不同的环境领域有效地进行具身智能体的离线学习。在VirtualHome基准测试中的实验表明，CoREN显著优于其他离线RL智能体，并且在智能体策略网络只有1.17亿参数且仅在训练中使用LLM的情况下，其性能也与拥有80亿参数的最新LLM型智能体相当。