LLM2D

摘要

arXiv:2504.02906v1 类型:跨领域摘要:从图表生成代码的过程，即将图表图像转换为可执行绘图脚本，提供了一种图表信息的无损表示，要求模型准确捕获和总结所有视觉和结构元素。然而，这仍然是多模态大型语言模型（MLLMs）的一个重大挑战，它们本身并不天然地与代码生成任务对齐。为了解决这一问题，我们引入了Chart2Code，这是一种新颖的迭代双重偏好学习框架，通过结构化的代码变体生成和精细的双重奖励信号来增强MLLMs的图表到代码生成能力。我们在三个MLLMs上验证了Chart2Code，并发现迭代偏好学习一致地提高了图表到代码生成的质量。在整个过程中，我们的双重评分方法，同时评估文本代码结构及其视觉表示，即使在偏好数据集规模减小的情况下，也带来了更大的性能改进。进一步的分析探讨了我们框架的关键组件，并强调了图表到代码生成与更广泛的图表推理之间的相互作用，这为未来的图表理解进步铺平了道路。