LLM2D

摘要

大型语言模型 (LLM) 的出现激发了人们对推进基于 LLM 的自主代理的兴趣，尤其是在智能手机图形用户界面 (GUI) 中引人入胜的应用方面。当面对任务目标时，这些代理通常会在 GUI 环境中模拟人类行为，直到任务完成。然而，一个关键的挑战在于设计有效的计划来指导 GUI 任务中的动作预测，尽管规划已被广泛认为可以有效地将复杂的任务分解成一系列步骤。具体来说，鉴于动作执行后环境 GUI 的动态特性，根据环境反馈和动作历史动态调整计划至关重要。我们发现广泛使用的 ReAct 方法由于历史对话过长而失败。为了解决这一挑战，我们提出了一种名为动态规划思想 (D-PoT) 的新方法，用于基于 LLM 的 GUI 代理。D-PoT 涉及基于环境反馈和执行历史动态调整规划。实验结果表明，所提出的 D-PoT 在准确率上显著超过强大的 GPT-4V 基线 +12.7% (34.66% → 47.36%)。分析突出了动态规划在不同主干 LLM 中的通用性，以及在减轻幻觉和适应未见任务方面的优势。代码可在 https://github.com/sqzhang-lazy/D-PoT 获取。