摘要
大型语言模型 (LLMs) 的出现激发了人们对推进基于 LLMs 的自主代理的兴趣,特别是在智能手机图形用户界面 (GUI) 中的引人入胜的应用。当面对一个任务目标时,这些代理通常模拟 GUI 环境中的人类行为,直到任务完成。然而,一个关键的挑战在于设计有效的计划来指导 GUI 任务中的动作预测,尽管计划已被广泛认为是将复杂任务分解成一系列步骤的有效方法。具体而言,鉴于动作执行后环境 GUI 的动态特性,根据环境反馈和动作历史动态地调整计划至关重要。我们表明,广泛使用的 ReAct 方法由于过长的历史对话而失败。为了解决这一挑战,我们提出了一种针对基于 LLM 的 GUI 代理的新方法,称为动态规划思想 (D-PoT)。D-PoT 涉及根据环境反馈和执行历史动态调整规划。实验结果表明,所提出的 D-PoT 在准确率方面显著超过了强大的 GPT-4V 基线 +12.7% (34.66% $\rightarrow$ 47.36%)。分析突出了动态规划在不同主干 LLM 中的通用性,以及在缓解幻觉和适应未见任务方面的益处。代码可在 https://github.com/sqzhang-lazy/D-PoT 获得。