LLM2D

摘要

大型语言模型 (LLMs) 在各种语言任务中展现出强大的能力，特别是通过指令微调方法。然而，LLMs 在通过图表和图来可视化复杂、真实世界的数据方面面临挑战。首先，现有的数据集很少涵盖全面的图表类型，例如 3D、体积和网格图表。其次，监督微调方法没有充分利用丰富数据集中的复杂关系，包括文本、代码和图形。为了解决这些挑战，我们提出了一种分层管道和一个新的图表生成数据集。我们的数据集 Text2Chart31 包含 31 种独特的绘图类型，参考 Matplotlib 库，包含 11.1K 个描述、代码、数据表和图的元组。此外，我们引入了一种基于强化学习的指令微调技术，用于图表生成任务，无需人工反馈。我们的实验表明，这种方法显著提高了模型性能，使较小的模型能够超越更大的开源模型，并在数据可视化任务中与最先进的专有模型相媲美。我们在 https://github.com/fatemehpesaran310/Text2Chart31 上发布了代码和数据集。