LLM2D

摘要

大型预训练模型在跨模态推理和规划任务中展现出越来越好的性能，为利用它们解决复杂的顺序决策问题提供了可能性。本文研究了大型语言模型（LLM）在多种交互式领域中进行强化学习（RL）的能力。我们评估了它们生成决策策略的能力，无论是直接通过生成动作，还是间接地，首先通过生成奖励模型来训练具有 RL 的智能体。我们的结果表明，即使没有特定任务的微调，LLM 也擅长奖励建模。特别是，通过人工智能（AI）反馈来构建奖励，产生了最通用的方法，并且可以通过改进信用分配和探索来提高性能。最后，在具有不熟悉动态的环境中，我们探索了如何使用合成数据微调 LLM 可以显著提高它们的奖励建模能力，同时减轻灾难性遗忘，进一步拓宽它们在顺序决策任务中的实用性。