摘要
arXiv:2502.00329v1 Announce Type: cross
摘要:大规模语言模型(LLMs)有可能通过自然语言交互简化数据发现和SQL查询合成等任务,从而彻底改变数据分析师的领域。这项工作标志着为数据分析师应用設計的基础模型开发迈出里程碑式的一步。为了进一步推进这一愿景,我们透露了一种用于后训练LLMs的新数据食谱,增强了它们对数据管理的理解,并使它们能够应对复杂的现实世界分析任务。具体而言,我们的创新方法包括一种可扩展的合成数据生成方法,该方法使能够围绕数据表示和操作创建广泛的主题。此外,我们引入了两项新的任务,这些任务能够无缝连接表和文本。我们展示出这些任务能够增强模型对数据库模式构建以及自然语言与表格数据微妙转换的理解。借助这种数据食谱,我们基于Mistral-NeMo-12B训练了一个新的基础模型,名为CoddLLM。为了评估LLMs在数据分析领域的语言理解和推理能力,我们贡献了一个包含数千个数据库、数据分析和机器学习多选题的基准测试,称为AnalyticsMMLU。我们对数据发现的关注,导致贡献了三个全面的基准测试,这些基准测试涵盖了数据库和数据湖场景。CoddLLM不仅在性能上表现出色,而且设定了新的标准,在八个数据集上的平均准确率达到最高。在AnalyticsMMLU上的性能上,CoddLLM超越了GPT-3.5-Turbo,表选择方面超过了GPT-4o 12.1% 的优势,并且在Text-to-SQL的表现上平均领先于基础模型24.9%。