LLM2D

摘要

多模态大型语言模型（MLLM）使基于LLM的代理能够直接与应用程序用户界面（UI）交互，从而提高代理在复杂任务中的性能。然而，由于大量的顺序式UI交互，这些代理通常会遇到高延迟和低可靠性的问题。为了解决这个问题，我们提出了AXIS，一个基于LLM的代理框架，该框架优先通过应用程序编程接口（API）执行操作，而不是UI操作。该框架还通过自动探索应用程序来促进API的创建和扩展。我们在Office Word上的实验表明，AXIS将任务完成时间缩短了65%-70%，将认知工作量减少了38%-53%，同时保持了97%-98%的准确率，与人类相当。我们的工作为LLM时代的人机交互（HACI）框架和应用程序提供商的新UI设计原则做出了贡献。它还探索了将每个应用程序转变为代理的可能性，为面向代理的操作系统（Agent OS）铺平了道路。