LLM2D
箭头导向的VLM:通过箭头方向编码增强流程图理解
Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding
作者: Takamitsu Omasa, Ryo Koshihara, Masumi Morishige
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.07864v1

摘要

arXiv:2505.07864v1 宣告类型: 新颖 摘要: 流程图是软件设计和业务流程分析不可或缺的工具,然而当前的视觉-语言模型(VLMs)经常误读将这些图表与自然图像区分开来的方向箭头和图表拓扑结构。我们提出了一种七阶段管道,分为三个更广泛的过程:(1)带有箭头意识的节点和箭头端点检测;(2)光学字符识别(OCR),以提取节点文本;(3)构建一个结构化提示,指导VLMs。在从30个注释的流程图中提炼出的90个问题基准测试上进行测试,该方法在没有任何特定任务微调的情况下,将整体准确性从80%提高到89%(增加了9个百分点)。对于下一步查询,增幅最为明显(25/30 -> 30/30;100%,增加了17个百分点);分支结果查询有所改善,但增幅较小,而先前步骤查询仍然困难。一项与LLM-as-a-Judge协议并行的评估显示了相同的趋势,进一步证明了明确箭头编码的优势。局限性包括检测器和OCR精度的依赖性、小的评估集以及节点具有多个入边时残留的错误。未来的工作将通过合成和手绘的流程图扩大基准测试,并在业务流程建模和表示(BPMN)和统一建模语言(UML)上评估该方法。