LLM2D
将每个应用程序转变为智能体:面向 API 首席的基于大型语言模型的智能体的有效人机交互
Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents
作者: Junting Lu, Zhiyang Zhang, Fangkai Yang, Jue Zhang, Lu Wang, Chao Du, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.17140v1

摘要

多模态大型语言模型(MLLM)使基于LLM的代理能够直接与应用程序用户界面(UI)交互,从而提高代理在复杂任务中的性能。然而,由于大量的顺序式UI交互,这些代理通常会遇到高延迟和低可靠性的问题。为了解决这个问题,我们提出了AXIS,一个基于LLM的代理框架,该框架优先通过应用程序编程接口(API)执行操作,而不是UI操作。该框架还通过自动探索应用程序来促进API的创建和扩展。我们在Office Word上的实验表明,AXIS将任务完成时间缩短了65%-70%,将认知工作量减少了38%-53%,同时保持了97%-98%的准确率,与人类相当。我们的工作为LLM时代的人机交互(HACI)框架和应用程序提供商的新UI设计原则做出了贡献。它还探索了将每个应用程序转变为代理的可能性,为面向代理的操作系统(Agent OS)铺平了道路。