摘要
arXiv:2503.12532v2 宣布类型: 替换交叉
摘要:开发能够自主操作图形用户界面的AI代理是一个长期而具有挑战性的任务。近年来,在数据缩放定律方面的进展启发我们使用扩展的指令集来训练计算机使用代理,但是使用行为克隆来训练代理仍然需要大量的高质量轨迹数据。为了满足可扩展性的需求,我们设计了STEVE,一个计算机使用代理训练的步骤验证流水线。首先,我们为计算机使用代理建立了一个大型指令集,并使用一些次优代理收集轨迹数据。GPT-4o用于根据执行动作前后的屏幕来验证每个步骤的正确性,并为每个步骤分配二元标签。最后,我们采用了Kahneman和Tversky优化方法来优化代理,从二元步骤标签中利用正负动作。广泛实验表明,通过利用轨迹中的正负动作,我们的代理优于监督微调。此外,STEVE使我们能够训练一个7B视觉语言模型作为计算机使用代理,在具有挑战性的实时桌面环境WinAgentArena中达到了领先性能,并且在较低成本下实现了高效的训练。代码和数据:https://github.com/FanbinLu/STEVE。