LLM2D

摘要

arXiv:2502.12130v1 宣传类型: 新颖摘要: 大型语言模型（LLMs）在一系列文本生成任务中展现出了非凡的能力。然而，LLMs 在需要多步决策和环境反馈的问题上仍然存在挑战，例如在线购物、科学研究和数学问题解决。与纯粹的文本数据相比，收集大规模的决策数据具有挑战性。此外，许多强大的LLMs仅通过API访问，这由于成本和复杂性因素阻碍了它们为代理任务进行微调。为了应对LLM代理的局限性，我们提出了一种框架，能够在不需要人工注释的情况下自动从环境中学习奖励模型。该模型可以用于评估LLM代理的行动轨迹，并为任务规划提供启发式方法。具体而言，我们的方法包括使用一个基于LLM的代理随机导航环境，生成多样化的行动轨迹。随后，利用另一个LLM分配任务意图，并为每个轨迹合成正确的响应和错误响应。这些三元组（任务意图、正面响应和负面响应）随后用作训练数据，以优化一个能够评分行动轨迹的奖励模型。通过在不同代理基准上的评估展示了我们框架的有效性和泛化能力。总之，我们提出的框架代表了增强LLM代理决策能力的重大进展。通过自动化学习奖励模型，我们克服了数据稀缺和API限制的挑战，有可能革命性地改变LLM在复杂和交互环境中应用的方式。这项研究为更高级的AI代理铺平了道路，这些代理能够解决需要多步决策的一系列现实世界问题。