LLM2D
探索专家失败有助于提升LLM代理调优
Exploring Expert Failures Improves LLM Agent Tuning
作者: Li-Cheng Lan, Andrew Bai, Minhao Cheng, Cho-Jui Hsieh, Tianyi Zhou
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.13145v2

摘要

arXiv:2504.13145v2 宣布类型: 重写 摘要: 大型语言模型(LLMs)在执行需要多轮推理和交互的任务方面展现出了巨大的潜力。拒绝采样微调(RFT)已成为一种有效的微调LLMs作为代理的方法:它首先模仿专家生成的成功轨迹,并通过迭代微调成功、自我生成的轨迹来进一步提高代理技能。然而,由于专家(例如GPT-4)主要在较简单的子任务上取得成功,而RFT本质上偏向于更简单的场景,许多复杂的子任务仍然无法解决,并持续处于分布外(OOD)状态。在调查这些具有挑战性的子任务后,我们发现以前失败的专家轨迹常常可以提供有价值的信息,例如计划和关键操作,这些信息可以显著提高代理探索效率和关键技能的获取。受到这些观察的启发,我们提出了探索专家失败(EEF),该方法从失败的专家轨迹中识别有益的操作,并将其整合到训练数据集中。潜在有害的操作被仔细排除,以防止污染模型的学习过程。通过利用专家失败中的有益操作,EEF成功解决了部分以前无法解决的子任务,并提高了代理微调性能。令人印象深刻的是,我们的方法在WebShop中实现了62%的胜率,超过了RFT(53.6%)和GPT-4(35.6%),据我们所知,这是首次方法在WebShop中超过0.81分,并在SciWorld中超过81分,确立了新的技术水平。