LLM2D
从大型语言模型推理到自主AI代理:一篇全面回顾
From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review
作者: Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19678v1

摘要

arXiv:2504.19678v1 评测类型:新 摘要:大型语言模型和自主AI代理已经迅速发展,导致了一系列多样的评估基准、框架和协作协议的出现。然而,当前的景观仍然支离破碎,缺乏统一的分类或全面的综述。因此,我们对2019年至2025年间开发的基准进行了并排比较,这些基准评估了这些模型和代理在多个领域的表现。此外,我们还提出了一种涵盖一般知识和学术知识推理、数学问题解决、代码生成和软件工程、事实本体论和检索、领域特定评估、多模态和具身任务、任务编排和互动评估的约60种基准的分类法。此外,我们还回顾了2023年至2025年间介绍的AI代理框架,这些框架结合了大型语言模型和模块化工具包,以实现自主决策和多步推理。此外,我们还介绍了自主AI代理在材料科学、生物医学研究、学术创意、软件工程、合成数据生成、化学推理、数学问题解决、地理信息系统、多媒体、医疗保健和金融领域的实际应用。然后,我们调查了关键的代理到代理协作协议,即代理通信协议(ACP)、模型上下文协议(MCP)和代理到代理协议(A2A)。最后,我们讨论了未来研究的建议,重点关注先进的推理策略、多代理LLM系统中的失败模式、自动科学发现、通过强化学习集成的动态工具集成、集成搜索能力以及代理协议中的安全漏洞。