LLM2D

摘要

arXiv:2504.19678v1 评测类型：新摘要：大型语言模型和自主AI代理已经迅速发展，导致了一系列多样的评估基准、框架和协作协议的出现。然而，当前的景观仍然支离破碎，缺乏统一的分类或全面的综述。因此，我们对2019年至2025年间开发的基准进行了并排比较，这些基准评估了这些模型和代理在多个领域的表现。此外，我们还提出了一种涵盖一般知识和学术知识推理、数学问题解决、代码生成和软件工程、事实本体论和检索、领域特定评估、多模态和具身任务、任务编排和互动评估的约60种基准的分类法。此外，我们还回顾了2023年至2025年间介绍的AI代理框架，这些框架结合了大型语言模型和模块化工具包，以实现自主决策和多步推理。此外，我们还介绍了自主AI代理在材料科学、生物医学研究、学术创意、软件工程、合成数据生成、化学推理、数学问题解决、地理信息系统、多媒体、医疗保健和金融领域的实际应用。然后，我们调查了关键的代理到代理协作协议，即代理通信协议（ACP）、模型上下文协议（MCP）和代理到代理协议（A2A）。最后，我们讨论了未来研究的建议，重点关注先进的推理策略、多代理LLM系统中的失败模式、自动科学发现、通过强化学习集成的动态工具集成、集成搜索能力以及代理协议中的安全漏洞。