摘要
多模态大型语言模型(MLLM)使基于LLM的代理能够直接与应用程序用户界面(UI)交互,从而提高代理在复杂任务中的性能。然而,由于大量的顺序式UI交互,这些代理通常会遇到高延迟和低可靠性的问题。为了解决这个问题,我们提出了AXIS,一个基于LLM的代理框架,该框架优先通过应用程序编程接口(API)执行操作,而不是UI操作。该框架还通过自动探索应用程序来促进API的创建和扩展。我们在Office Word上的实验表明,AXIS将任务完成时间缩短了65%-70%,将认知工作量减少了38%-53%,同时保持了97%-98%的准确率,与人类相当。我们的工作为LLM时代的人机交互(HACI)框架和应用程序提供商的新UI设计原则做出了贡献。它还探索了将每个应用程序转变为代理的可能性,为面向代理的操作系统(Agent OS)铺平了道路。