LLM2D
基于大型语言模型的图形用户界面自动化动态规划
Dynamic Planning for LLM-based Graphical User Interface Automation
作者: Shaoqing Zhang, Zhuosheng Zhang, Kehai Chen, Xinbei Ma, Muyun Yang, Tiejun Zhao, Min Zhang
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.00467v2

摘要

大型语言模型 (LLM) 的出现激发了人们对推进基于 LLM 的自主代理的兴趣,尤其是在智能手机图形用户界面 (GUI) 中引人入胜的应用方面。当面对任务目标时,这些代理通常会在 GUI 环境中模拟人类行为,直到任务完成。然而,一个关键的挑战在于设计有效的计划来指导 GUI 任务中的动作预测,尽管规划已被广泛认为可以有效地将复杂的任务分解成一系列步骤。具体来说,鉴于动作执行后环境 GUI 的动态特性,根据环境反馈和动作历史动态调整计划至关重要。我们发现广泛使用的 ReAct 方法由于历史对话过长而失败。为了解决这一挑战,我们提出了一种名为动态规划思想 (D-PoT) 的新方法,用于基于 LLM 的 GUI 代理。D-PoT 涉及基于环境反馈和执行历史动态调整规划。实验结果表明,所提出的 D-PoT 在准确率上显著超过强大的 GPT-4V 基线 +12.7% (34.66% → 47.36%)。分析突出了动态规划在不同主干 LLM 中的通用性,以及在减轻幻觉和适应未见任务方面的优势。代码可在 https://github.com/sqzhang-lazy/D-PoT 获取。