摘要
大型语言模型 (LLMs) 在各种语言任务中展现出强大的能力,特别是通过指令微调方法。然而,LLMs 在通过图表和图来可视化复杂、真实世界的数据方面面临挑战。首先,现有的数据集很少涵盖全面的图表类型,例如 3D、体积和网格图表。其次,监督微调方法没有充分利用丰富数据集中的复杂关系,包括文本、代码和图形。为了解决这些挑战,我们提出了一种分层管道和一个新的图表生成数据集。我们的数据集 Text2Chart31 包含 31 种独特的绘图类型,参考 Matplotlib 库,包含 11.1K 个描述、代码、数据表和图的元组。此外,我们引入了一种基于强化学习的指令微调技术,用于图表生成任务,无需人工反馈。我们的实验表明,这种方法显著提高了模型性能,使较小的模型能够超越更大的开源模型,并在数据可视化任务中与最先进的专有模型相媲美。我们在 https://github.com/fatemehpesaran310/Text2Chart31 上发布了代码和数据集。