摘要
arXiv:2504.11571v1 宣布类型: 新
摘要: 大型语言模型(LLM)驱动的代理为自动化人类任务开启了新的可能性。虽然前期工作主要集中在有明确定义的任务和明确目标上,但在具有开放目标的创造性设计任务中的代理能力仍然未得到充分探索。我们介绍了一个名为 GraphicBench 的新规划基准,该基准涵盖了四种设计类型中来自1,079个用户查询和输入图像的数据。我们进一步提出了 GraphicTown,这是一个 LLM 代理框架,该框架包含三位设计专家和46种可供执行每一步计划工作流的动作(工具),以在网页环境中执行。使用六种 LLM 的实验展示了它们生成融合用户查询中的明确设计约束和常识约束的双向工作流的能力。然而,这些工作流往往无法导致成功的执行结果,主要是由于以下困难:(1)空间关系的推理,(2)专家之间全局依赖关系的协调,以及(3)每一步获取最合适动作的检索。我们设想 GraphicBench 是一个具有挑战性的且有价值的测试平台,用于推进创造性设计任务中的 LLM 代理规划和执行。