摘要
arXiv:2504.10445v1 公告类型: 新
摘要:为了成功协助长期的基于网络的任务,AI 代理必须能够在长时间内按顺序遵循现实世界用户的指令。与现有的基于网络的代理基准不同,现实世界中的顺序指令遵循不仅超出了一次明确定义的任务的执行,还带来了诸多挑战。例如,现实世界中的人类指令可能是模糊的,需要不同程度的 AI 协助,并且可能会随着时间变化,反映出用户心理状态的变化。为了解决这一差距,我们提出了 RealWebAssist,这是一个新的基准,旨在评估在涉及长期网络交互、视觉GUI定位和理解模糊的现实世界用户指令的现实场景中的顺序指令遵循。RealWebAssist 包括从真实世界用户收集的序列指令数据集。每个用户都指示基于网络的助手在一个或多个网站上完成一系列任务。成功的代理需要理解每条指令背后的真正意图,跟踪用户的心理状态,理解用户特定的习惯,并将所需的任务与正确的GUI元素操作关联起来。我们的实验结果表明,最先进的模型难以理解并定位用户指令,在长期网络辅助中遵循现实世界用户指令存在关键挑战。