LLM2D

摘要

arXiv:2503.21889v1 宣告类型: cross 摘要: 工作流是企业平台自动化的基本组成部分，能够实现任务编排、数据处理和系统集成。尽管工作流被广泛使用，但构建工作流往往很复杂，通常需要通过低代码平台或可视化编程工具进行手动配置。为了简化这一过程，我们探索了生成基础模型，特别是视觉语言模型（VLMs），自动从视觉输入生成结构化工作流的方法。将手绘草图或计算机生成的图表转化为可执行工作流是具有挑战性的，因为自由形式的绘图具有不确定性，图表风格存在差异，且从视觉元素中推断执行逻辑也很难。为了解决这一问题，我们引入了StarFlow，这是一种使用视觉语言模型从草图生成结构化工作流输出的框架。我们创建了一个多样的工作流图表数据集——包括合成的、手动标注的和现实世界的样本——以实现稳健的训练和评估。我们对多个视觉语言模型进行了微调和基准测试，并进行了一系列消融研究，以分析我们方法的优势和局限性。我们的结果显示，微调极大地提高了结构化工作流生成的效果，在该任务上超过大型视觉语言模型。