摘要
arXiv:2505.00416v1 Announce Type: 新的
摘要:自动GUI代理旨在通过在数字环境中(如网络、移动设备、桌面设备)自动执行复杂任务来简化用户交互。它接收文本任务指令和GUI描述,逐步生成可执行的操作(例如点击)和操作框。训练GUI代理主要涉及映射和规划阶段,在映射阶段中,GUI映射主要关注根据任务找到执行坐标,而规划阶段旨在基于历史操作预测下一个动作。然而,先前的工作在GUI映射的训练数据不足以及在GUI规划中忽视历史行为回溯方面存在限制。为了解决上述挑战,我们提出了ScaleTrack,一种通过扩展映射和回溯规划方法来训练自动化GUI代理的训练框架。我们从多个来源精心收集了不同合成标准的GUI样本,并将它们统一为相同的模板以用于训练GUI映射模型。此外,我们设计了一种新的训练策略,从当前的GUI图像中预测下一个动作,同时回溯导致GUI图像的历史操作。通过这种方式,ScaleTrack解释了GUI图像与动作之间的对应关系,有效地描述了GUI环境的演变规则。广泛实验结果证明了ScaleTrack的有效性。数据和代码将在网址上提供。