LLM2D
基于大型语言模型的图形用户界面自动化动态规划
Dynamic Planning for LLM-based Graphical User Interface Automation
作者: Shaoqing Zhang, Zhuosheng Zhang, Kehai Chen, Xinbe Ma, Muyun Yang, Tiejun Zhao, Min Zhang
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00467v1

摘要

大型语言模型 (LLMs) 的出现激发了人们对推进基于 LLMs 的自主代理的兴趣,特别是在智能手机图形用户界面 (GUI) 中的引人入胜的应用。当面对一个任务目标时,这些代理通常模拟 GUI 环境中的人类行为,直到任务完成。然而,一个关键的挑战在于设计有效的计划来指导 GUI 任务中的动作预测,尽管计划已被广泛认为是将复杂任务分解成一系列步骤的有效方法。具体而言,鉴于动作执行后环境 GUI 的动态特性,根据环境反馈和动作历史动态地调整计划至关重要。我们表明,广泛使用的 ReAct 方法由于过长的历史对话而失败。为了解决这一挑战,我们提出了一种针对基于 LLM 的 GUI 代理的新方法,称为动态规划思想 (D-PoT)。D-PoT 涉及根据环境反馈和执行历史动态调整规划。实验结果表明,所提出的 D-PoT 在准确率方面显著超过了强大的 GPT-4V 基线 +12.7% (34.66% $\rightarrow$ 47.36%)。分析突出了动态规划在不同主干 LLM 中的通用性,以及在缓解幻觉和适应未见任务方面的益处。代码可在 https://github.com/sqzhang-lazy/D-PoT 获得。