LLM2D

摘要

arXiv:2504.09479v1 声明类型: 新摘要: 科学图表是跨学科传达结构化知识的重要工具。然而，它们通常以静态位图图像的形式发表，丧失了符号语义，并限制了再利用。虽然多模态大型语言模型（MLLMs）提供了视力与结构之间桥梁的可能性，但现有方法缺乏语义控制和结构可解释性，尤其是在复杂的图表上。我们提出了一种无训练框架 Draw with Thought (DwT)，通过认知基础的链式思考推理引导 MLLMs 将图表重构为可编辑的 mxGraph XML 代码。DwT 通过将任务分为两个阶段，即粗到细规划和结构感知代码生成，使输出具有可解释性和可控性，而无需模型微调。Coarse-to-Fine 规划处理感知结构化和语义规范，而结构感知代码生成通过格式指导性细化得到增强。为了支持评估，我们发布了 Plot2XML，这是一个包含 247 张真实科学图表的数据集，具有金标准 XML 注释。在八种 MLLMs 上进行的广泛实验显示，我们的方法生成了高保真度、语义对齐且结构有效的重构结果，而人类评估确认了在准确性和视觉美感方面的强烈对齐，提供了一种将静态视觉转换为可执行表示的可扩展解决方案，并推进了机器对科学图表的理解。