LLM2D
大型语言模型在序列决策中的建模能力
On the Modeling Capabilities of Large Language Models for Sequential Decision Making
作者: Martin Klissarov, Devon Hjelm, Alexander Toshev, Bogdan Mazoure
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05656v1

摘要

大型预训练模型在跨模态推理和规划任务中展现出越来越好的性能,为利用它们解决复杂的顺序决策问题提供了可能性。本文研究了大型语言模型(LLM)在多种交互式领域中进行强化学习(RL)的能力。我们评估了它们生成决策策略的能力,无论是直接通过生成动作,还是间接地,首先通过生成奖励模型来训练具有 RL 的智能体。我们的结果表明,即使没有特定任务的微调,LLM 也擅长奖励建模。特别是,通过人工智能(AI)反馈来构建奖励,产生了最通用的方法,并且可以通过改进信用分配和探索来提高性能。最后,在具有不熟悉动态的环境中,我们探索了如何使用合成数据微调 LLM 可以显著提高它们的奖励建模能力,同时减轻灾难性遗忘,进一步拓宽它们在顺序决策任务中的实用性。