LLM2D

摘要

arXiv:2505.00416v1 Announce Type: 新的摘要：自动GUI代理旨在通过在数字环境中（如网络、移动设备、桌面设备）自动执行复杂任务来简化用户交互。它接收文本任务指令和GUI描述，逐步生成可执行的操作（例如点击）和操作框。训练GUI代理主要涉及映射和规划阶段，在映射阶段中，GUI映射主要关注根据任务找到执行坐标，而规划阶段旨在基于历史操作预测下一个动作。然而，先前的工作在GUI映射的训练数据不足以及在GUI规划中忽视历史行为回溯方面存在限制。为了解决上述挑战，我们提出了ScaleTrack，一种通过扩展映射和回溯规划方法来训练自动化GUI代理的训练框架。我们从多个来源精心收集了不同合成标准的GUI样本，并将它们统一为相同的模板以用于训练GUI映射模型。此外，我们设计了一种新的训练策略，从当前的GUI图像中预测下一个动作，同时回溯导致GUI图像的历史操作。通过这种方式，ScaleTrack解释了GUI图像与动作之间的对应关系，有效地描述了GUI环境的演变规则。广泛实验结果证明了ScaleTrack的有效性。数据和代码将在网址上提供。