摘要
arXiv:2502.02955v1 类型: cross
摘要:近年来,移动AI代理得到了不断增加的关注。给定一个任务,移动AI代理可以在多个步骤中与移动设备进行交互,最终形成一个GUI流程来解决该任务。然而,现有的代理通常倾向于在每个步骤中专注于最相关的任务元素,导致局部最优解,并且忽略了整体的GUI流程。为了解决这一问题,我们构建了一个名为MobileReach的训练数据集,将任务分解为页面到达和操作子任务。此外,我们提出了一种名为ReachAgent的两阶段框架,旨在提高其任务完成能力。该框架利用页面到达和页面操作子任务,以及基于奖励的偏好GUI流程,进一步增强了代理。实验结果显示,ReachAgent在步骤级别上将IoU Acc 和 Text Acc 分别提高了7.12%和7.69%,在任务级别上分别提高了4.72%和4.63%,相较于最先进的代理。我们的数据和代码将在接受后公开。