摘要
arXiv:2406.10819v2 广播类型: replace-cross
摘要: 最近,多模态大语言模型(MLLMs)被用作代理,通过直接感知图形用户界面(GUI)并生成相应的命令来控制键盘和鼠标输入。然而,当前的代理主要在静态环境中展现出强大的理解能力,并且主要应用于相对简单的领域,如Web或移动界面。我们认为,一个稳健的GUI代理应该能够感知GUI上的时间信息,包括动态Web内容和多步任务。此外,它应该对各种GUI场景有一个全面的理解,包括桌面软件和多窗口交互。为此,本文介绍了新的数据集GUI-World,该数据集包括细致的人-MLLM注解,广泛涵盖了六个GUI场景和三种格式下的八种GUI导向问题。我们评估了当前最先进的MLLMs,包括图像LLM和视频LLM,在理解各种类型的GUI内容,尤其是动态和顺序内容方面的能力。我们的发现表明,当前的模型在没有手动注释的关键帧或操作历史的情况下难以处理动态GUI内容。另一方面,由于GUI视频数据集稀疏,视频LLM在所有GUI导向任务中表现不佳。因此,我们采取了初步步骤,利用微调后的视频LLM GUI-Vid作为GUI导向助手,展示了对各种GUI任务更好的理解。然而,由于基础LLM性能的局限性,我们认为使用视频LLM作为GUI代理仍然是一个重大挑战。我们相信,我们的工作为未来在动态GUI内容理解方面的研究提供了有价值的见解。所有数据集和代码均可在以下网址公开访问:https://gui-world.github.io。