LLM2D
LLM智能体制作智能体工具
LLM Agents Making Agent Tools
作者: Georg W\"olflein, Dyke Ferber, Daniel Truhn, Ognjen Arandjelovi\'c, Jakob Nikolas Kather
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11705v1

摘要

arXiv:2502.11705v1 交叉类型: cross 摘要:工具使用已将大型语言模型(LLMs)转变为强大的代理,它们可以通过动态利用外部软件组件执行复杂多步骤的任务。然而,这些工具必须由人类开发者提前实现,这阻碍了LLM代理在需要大量高度专业化工具的领域中的应用,例如生命科学和医学。鉴于科学研究中越来越多地伴随有公共代码仓库的趋势,我们提出了一种名为ToolMaker的新代理框架,该框架能够自主地将带有代码的论文转换为与LLM兼容的工具。给定一个简短的任务描述和一个仓库URL,ToolMaker自主安装所需的依赖项并生成代码以执行任务,使用一个封闭回路的自我纠正机制来迭代诊断和纠正错误。为了评估我们的方法,我们引入了一个基准,其中包括15个涵盖医学和非医学领域的多样而复杂的计算任务,并包含超过100个单元测试以客观评估工具的正确性和鲁棒性。ToolMaker成功实现了80%的任务,显著优于当前最先进的软件工程代理。因此,ToolMaker是完全自主的基于代理的科学工作流程的一个重要步骤。