LLM2D

摘要

arXiv:2410.04064v2 公告类型: replace-cross 摘要：大型语言模型（LLMs）在各种语言任务中表现出强大的能力，特别是在通过指令调优方法实现这一点方面。然而，LLMs 在通过图表和图表可视化复杂的现实世界数据时面临着挑战。首先，现有的数据集很少涵盖所有类型的图表，如3D、体积和网格图表。其次，监督微调方法并没有充分利用丰富数据集中的复杂关系，包括文本、代码和图表。为了应对这些挑战，我们提出了一种分层管道和一个新的图表生成数据集。我们的数据集 Text2Chart31 包含了31种独特的图表类型（参考 Matplotlib 库），共有11100个描述、代码、数据表格和图表的元组。此外，我们还引入了一种基于强化学习的指令调优技术，用于图表生成任务，无需人类反馈。我们的实验表明，这种方法显著提升了模型性能，使较小的模型能够优于较大的开源模型，并在数据可视化任务中与最先进的专有模型相媲美。我们将在 https://github.com/fatemehpesaran310/Text2Chart31 提供代码和数据集。