摘要
arXiv:2410.04064v2 公告类型: replace-cross
摘要:大型语言模型(LLMs)在各种语言任务中表现出强大的能力,特别是在通过指令调优方法实现这一点方面。然而,LLMs 在通过图表和图表可视化复杂的现实世界数据时面临着挑战。首先,现有的数据集很少涵盖所有类型的图表,如3D、体积和网格图表。其次,监督微调方法并没有充分利用丰富数据集中的复杂关系,包括文本、代码和图表。为了应对这些挑战,我们提出了一种分层管道和一个新的图表生成数据集。我们的数据集 Text2Chart31 包含了31种独特的图表类型(参考 Matplotlib 库),共有11100个描述、代码、数据表格和图表的元组。此外,我们还引入了一种基于强化学习的指令调优技术,用于图表生成任务,无需人类反馈。我们的实验表明,这种方法显著提升了模型性能,使较小的模型能够优于较大的开源模型,并在数据可视化任务中与最先进的专有模型相媲美。我们将在 https://github.com/fatemehpesaran310/Text2Chart31 提供代码和数据集。