摘要
arXiv:2504.02906v1 类型:跨领域
摘要:从图表生成代码的过程,即将图表图像转换为可执行绘图脚本,提供了一种图表信息的无损表示,要求模型准确捕获和总结所有视觉和结构元素。然而,这仍然是多模态大型语言模型(MLLMs)的一个重大挑战,它们本身并不天然地与代码生成任务对齐。为了解决这一问题,我们引入了Chart2Code,这是一种新颖的迭代双重偏好学习框架,通过结构化的代码变体生成和精细的双重奖励信号来增强MLLMs的图表到代码生成能力。我们在三个MLLMs上验证了Chart2Code,并发现迭代偏好学习一致地提高了图表到代码生成的质量。在整个过程中,我们的双重评分方法,同时评估文本代码结构及其视觉表示,即使在偏好数据集规模减小的情况下,也带来了更大的性能改进。进一步的分析探讨了我们框架的关键组件,并强调了图表到代码生成与更广泛的图表推理之间的相互作用,这为未来的图表理解进步铺平了道路。