LLM2D

摘要

以往许多人工智能研究都集中于开发单体模型以最大化其智能，其主要目标是提高特定任务的性能。相比之下，这项工作尝试研究使用基于大型语言模型 (LLM) 的智能体来自主设计协作式人工智能系统。为了探索这个问题，我们首先介绍了 ComfyBench，用于评估智能体在 ComfyUI 中设计协作式人工智能系统的能力。ComfyBench 是一个全面的基准，包含 200 个不同的任务，涵盖各种指令遵循生成挑战，以及对 3205 个节点和 20 个工作流程的详细注释。基于 ComfyBench，我们进一步开发了 ComfyAgent，这是一个新颖的框架，使基于 LLM 的智能体能够通过生成工作流程来自主设计协作式人工智能系统。ComfyAgent 基于两个核心概念。首先，它用代码表示工作流程，这些代码可以可逆地转换为工作流程，并由解释器作为协作系统执行。其次，它构建了一个多智能体系统，该系统合作学习现有工作流程并为给定任务生成新的工作流程。虽然实验结果表明 ComfyAgent 达到了与 o1-preview 相当的解决率，并且在 ComfyBench 上显著超过其他智能体，但 ComfyAgent 只解决了 15% 的创造性任务。基于大型语言模型的智能体在自主设计协作式人工智能系统方面还有很长的路要走。ComfyBench 的进展为更智能、更自主的协作式人工智能系统铺平了道路。