摘要
利用大型语言模型(LLM)赋能具身智能体已成为一种流行方法,但在实践中存在一些局限性。本研究并非直接将LLM用作智能体,而是探索将其作为具身智能体学习的工具。具体来说,为了通过离线强化学习(RL)训练独立的智能体,LLM被用来为训练数据集中的单个动作提供密集的奖励反馈。为此,我们提出了一种一致性引导的奖励集成框架(CoREN),旨在解决将LLM生成的估计值与目标环境领域相结合的难题。该框架采用自适应集成时空一致性奖励,以在训练数据集中导出基于领域的奖励,从而能够在不同的环境领域有效地进行具身智能体的离线学习。在VirtualHome基准测试中的实验表明,CoREN显著优于其他离线RL智能体,并且在智能体策略网络只有1.17亿参数且仅在训练中使用LLM的情况下,其性能也与拥有80亿参数的最新LLM型智能体相当。