摘要
arXiv:2504.09479v1 声明类型: 新
摘要: 科学图表是跨学科传达结构化知识的重要工具。然而,它们通常以静态位图图像的形式发表,丧失了符号语义,并限制了再利用。虽然多模态大型语言模型(MLLMs)提供了视力与结构之间桥梁的可能性,但现有方法缺乏语义控制和结构可解释性,尤其是在复杂的图表上。我们提出了一种无训练框架 Draw with Thought (DwT),通过认知基础的链式思考推理引导 MLLMs 将图表重构为可编辑的 mxGraph XML 代码。DwT 通过将任务分为两个阶段,即粗到细规划和结构感知代码生成,使输出具有可解释性和可控性,而无需模型微调。Coarse-to-Fine 规划处理感知结构化和语义规范,而结构感知代码生成通过格式指导性细化得到增强。为了支持评估,我们发布了 Plot2XML,这是一个包含 247 张真实科学图表的数据集,具有金标准 XML 注释。在八种 MLLMs 上进行的广泛实验显示,我们的方法生成了高保真度、语义对齐且结构有效的重构结果,而人类评估确认了在准确性和视觉美感方面的强烈对齐,提供了一种将静态视觉转换为可执行表示的可扩展解决方案,并推进了机器对科学图表的理解。