LLM2D

摘要

arXiv:2504.13145v2 宣布类型: 重写摘要: 大型语言模型（LLMs）在执行需要多轮推理和交互的任务方面展现出了巨大的潜力。拒绝采样微调（RFT）已成为一种有效的微调LLMs作为代理的方法：它首先模仿专家生成的成功轨迹，并通过迭代微调成功、自我生成的轨迹来进一步提高代理技能。然而，由于专家（例如GPT-4）主要在较简单的子任务上取得成功，而RFT本质上偏向于更简单的场景，许多复杂的子任务仍然无法解决，并持续处于分布外（OOD）状态。在调查这些具有挑战性的子任务后，我们发现以前失败的专家轨迹常常可以提供有价值的信息，例如计划和关键操作，这些信息可以显著提高代理探索效率和关键技能的获取。受到这些观察的启发，我们提出了探索专家失败（EEF），该方法从失败的专家轨迹中识别有益的操作，并将其整合到训练数据集中。潜在有害的操作被仔细排除，以防止污染模型的学习过程。通过利用专家失败中的有益操作，EEF成功解决了部分以前无法解决的子任务，并提高了代理微调性能。令人印象深刻的是，我们的方法在WebShop中实现了62%的胜率，超过了RFT（53.6%）和GPT-4（35.6%），据我们所知，这是首次方法在WebShop中超过0.81分，并在SciWorld中超过81分，确立了新的技术水平。