LLM2D

摘要

arXiv:2502.02955v1 类型: cross 摘要：近年来，移动AI代理得到了不断增加的关注。给定一个任务，移动AI代理可以在多个步骤中与移动设备进行交互，最终形成一个GUI流程来解决该任务。然而，现有的代理通常倾向于在每个步骤中专注于最相关的任务元素，导致局部最优解，并且忽略了整体的GUI流程。为了解决这一问题，我们构建了一个名为MobileReach的训练数据集，将任务分解为页面到达和操作子任务。此外，我们提出了一种名为ReachAgent的两阶段框架，旨在提高其任务完成能力。该框架利用页面到达和页面操作子任务，以及基于奖励的偏好GUI流程，进一步增强了代理。实验结果显示，ReachAgent在步骤级别上将IoU Acc 和 Text Acc 分别提高了7.12%和7.69%，在任务级别上分别提高了4.72%和4.63%，相较于最先进的代理。我们的数据和代码将在接受后公开。