摘要
arXiv:2502.12130v1 宣传类型: 新颖
摘要: 大型语言模型(LLMs)在一系列文本生成任务中展现出了非凡的能力。然而,LLMs 在需要多步决策和环境反馈的问题上仍然存在挑战,例如在线购物、科学研究和数学问题解决。与纯粹的文本数据相比,收集大规模的决策数据具有挑战性。此外,许多强大的LLMs仅通过API访问,这由于成本和复杂性因素阻碍了它们为代理任务进行微调。为了应对LLM代理的局限性,我们提出了一种框架,能够在不需要人工注释的情况下自动从环境中学习奖励模型。该模型可以用于评估LLM代理的行动轨迹,并为任务规划提供启发式方法。具体而言,我们的方法包括使用一个基于LLM的代理随机导航环境,生成多样化的行动轨迹。随后,利用另一个LLM分配任务意图,并为每个轨迹合成正确的响应和错误响应。这些三元组(任务意图、正面响应和负面响应)随后用作训练数据,以优化一个能够评分行动轨迹的奖励模型。通过在不同代理基准上的评估展示了我们框架的有效性和泛化能力。总之,我们提出的框架代表了增强LLM代理决策能力的重大进展。通过自动化学习奖励模型,我们克服了数据稀缺和API限制的挑战,有可能革命性地改变LLM在复杂和交互环境中应用的方式。这项研究为更高级的AI代理铺平了道路,这些代理能够解决需要多步决策的一系列现实世界问题。