LLM2D

摘要

arXiv:2502.11705v1 交叉类型: cross 摘要：工具使用已将大型语言模型（LLMs）转变为强大的代理，它们可以通过动态利用外部软件组件执行复杂多步骤的任务。然而，这些工具必须由人类开发者提前实现，这阻碍了LLM代理在需要大量高度专业化工具的领域中的应用，例如生命科学和医学。鉴于科学研究中越来越多地伴随有公共代码仓库的趋势，我们提出了一种名为ToolMaker的新代理框架，该框架能够自主地将带有代码的论文转换为与LLM兼容的工具。给定一个简短的任务描述和一个仓库URL，ToolMaker自主安装所需的依赖项并生成代码以执行任务，使用一个封闭回路的自我纠正机制来迭代诊断和纠正错误。为了评估我们的方法，我们引入了一个基准，其中包括15个涵盖医学和非医学领域的多样而复杂的计算任务，并包含超过100个单元测试以客观评估工具的正确性和鲁棒性。ToolMaker成功实现了80%的任务，显著优于当前最先进的软件工程代理。因此，ToolMaker是完全自主的基于代理的科学工作流程的一个重要步骤。