LLM2D

摘要

随着 GPT-4V(O) 的发布，它在生成多模态任务伪标签方面的应用越来越受欢迎。然而，如何从其基础大型语言模型 (LLM) 中构建这种先进模型仍然是一个秘密。这项工作探索了仅使用 LLM 进行数据生成并开发专注于图表理解的竞争性多模态模型的潜力。我们构建了一个大型图表数据集 SynChart，其中包含大约 400 万张不同的图表图像，以及超过 7500 万个密集标注，包括数据表、代码、描述和问答集。我们使用此数据集训练了一个 42 亿参数的图表专家模型，在 ChartQA 任务上取得了接近 GPT-4O 的性能，超越了 GPT-4V。