LLM2D
通过大规模语言模型实现自动跨域探索性数据分析
Towards Automated Cross-domain Exploratory Data Analysis through Large Language Models
作者: Jun-Peng Zhu, Boyan Niu, Peng Cai, Zheming Ni, Jianwei Wan, Kai Xu, Jiajun Huang, Shengbo Ma, Bing Wang, Xuan Zhou, Guanglei Bao, Donghui Zhang, Liu Tang, Qi Liu
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2412.07214v3

摘要

arXiv:2412.07214v3 宣告类型: replace-cross 摘要:探索性数据分析(EDA)与SQL结合使用,对于参与数据探索和分析的数据分析师来说至关重要。然而,数据分析师常常面临两大主要挑战:(1)熟练地编写SQL查询,以及(2)生成合适的可视化类型以增强查询结果的解读能力。鉴于其重要性,已经开展了大量研究工作,探索解决这些挑战的不同方法,包括利用大规模语言模型(LLMs)。然而,现有的方法在实际数据探索需求中表现出不足,主要原因在于(1)复杂的数据库模式;(2)不明确的用户意图;(3)有限的跨域泛化能力;以及(4)缺乏端到端的文本到可视化生成能力。 本文提出了TiInsight,这是一种自动化的基于SQL的跨域探索性数据分析系统。首先,我们提出层次化数据上下文(即HDC),利用LLMs总结与数据库模式相关的上下文,这对于开放世界EDA系统跨数据域进行泛化至关重要。其次,EDA系统分为四个组件(即阶段):HDC生成、问题澄清和分解、文本到SQL生成(即TiSQL)和数据可视化(即TiChart)。最后,我们在PingCAP的生产环境中实现了具有用户友好图形用户界面的端到端EDA系统。我们还向EDA社区开源了TiInsight的所有API,以促进相关研究。通过现实世界用户的广泛评估,我们证明了TiInsight相对于人类专家的表现极为出色。特别是在使用GPT-4的Spider数据集上,TiSQL的执行准确率达到86.3%。它还在Bird数据集上展示了最先进的性能。