LLM2D

摘要

arXiv:2407.05291v2 宣布类型: 替换摘要: 大型语言模型（LLMs）模仿人类智能的能力导致了基于LLM的自主代理的激增。尽管最近的LLM在给定用户指令的情况下似乎能够进行规划和推理，但它们在实际执行自主任务解决问题方面的有效性仍然未得到充分探索。特别是在企业环境中，自动代理具有巨大的潜在影响力。为了填补这一空白，我们提出了一种名为WorkArena++的新基准，包含682项任务，对应于知识工作者日常工作流中经常执行的真实工作流程。WorkArena++旨在评估网络代理的规划、问题解决、逻辑/算术推理、检索以及上下文理解能力。我们对最先进的LLM和Vision-Language模型（VLM）以及人类工作者进行的实证研究揭示了这些模型在职场作为有用助手需要克服的几个挑战。此外，我们提供了一种简便机制，用于生成数千条真实观察和动作轨迹，这些轨迹可以用于现有模型的微调。总体而言，我们希望这项工作能够成为社区进步的重要资源，帮助开发有效的自主代理。该基准可以在 https://github.com/ServiceNow/WorkArena 查找。