摘要
arXiv:2502.12494v1 宣布类型:交叉
摘要:大型语言模型(LLMs)展示了作为人工智能代理的出色能力。然而,现有增强LLM代理能力的方法往往缺乏对数据质量的关注,导致在微调和提示工程中出现低效率和次优结果。为解决这一问题,我们提出了EDGE,一种无需金色答案即可识别有信息量样本的新型方法。我们提出了一种称为高效指导(GE)的度量标准,该标准通过衡量人类提供的指导在多轮交互任务中的影响来选择具有挑战性的样本。GE分数较低表明样本所需的专家知识未包含在指导中,从而使样本更具信息量。通过选择GE分数较低的样本,可以提高LLMs提示工程和微调过程的效率和结果。广泛的实验验证了我们方法的性能。我们的方法在HotpotQA和WebShop数据集上取得了竞争性结果,分别需要少75%和50%的数据,并且优于现有方法。我们还提供了一种关于LLM代理微调数据质量的新视角。