摘要
arXiv:2502.06776v1 交叉公告类型
摘要:目前训练网页导航代理的主要方法是为一组流行的网站收集人类示范和手写任务,但很明显,人类数据已成为一个低效的资源。我们开发了一条生产线来促进无劳动密集型人类注释的大规模互联网训练。在第一阶段,一个大语言模型生成150,000个多样化的网站任务。在下一阶段,大语言模型代理完成任务并生成轨迹。在最后阶段,一个大语言模型审查轨迹并判断其成功率。语言模型在检测和过滤有害内容方面比人类注释者更具竞争力,准确率达到97%,生成可行任务的比例为89%,判断成功轨迹的准确率为82.6%。扩展生产线,基于Llama 3.1 70B的代理解决了150,000个网站中16.7%的任务。使用我们生产线生成的数据进行训练的竞争性与使用人类示范进行训练相当。在从Mind2Web和WebLINX衍生的数据受限设置中,使用我们生产线和人类数据混合的数据训练的代理分别提高了Step Accuracy多达+89.5%和+122.1%。当使用这些基准所有可用的人类数据训练代理时,代理无法泛化到多种真实网站,但在WebLINX和Mind2Web中,加入我们的数据分别提高了其泛化能力+149.0%和+156.3%。代码将在以下网址提供:data-for-agents.github.io。