摘要
arXiv:2504.13145v1 宣告类型: 新
摘要: 大型语言模型(LLMs)在作为代理执行任务方面展现了巨大的潜力,特别是在需要多轮推理和交互的任务中表现出色。拒绝采样微调(RFT)已成为一种有效的微调LLMs作为代理的方法:它首先模仿专家生成的成功轨迹,并通过在成功且由代理自动生成的轨迹上进行迭代微调进一步提高代理技能。然而,由于专家(例如,GPT-4)主要在简单的子任务上成功,而RFT本身倾向于简单场景,许多复杂的子任务仍然无法解决且持续处于分布外(ODD)。在调查这些具有挑战性的子任务时,我们发现,之前失败的专家轨迹往往可以提供有价值的信息,例如计划和关键操作,这些信息可以显著提高代理探索效率和掌握关键技能的能力。受这些观察的启发,我们提出了探索专家失败(EEF)方法,该方法从失败的专家轨迹中识别有益的动作,并将其整合到训练数据集中。潜在有害的动作被仔细排除,以防止污染模型的学习过程。通过利用专家失败中有益的动作,EEF成功解决了部分之前无法解决的子任务,并提高了代理微调性能。值得一提的是,我们的方法在WebShop中的获胜率为62%,优于RFT(53.6%)和GPT-4(35.6%),据我们所知,这不仅创下了新的最佳状态,还首次在WebShop中将得分超过0.81超越了RFT,并且在SciWorld中超过了81。