LLM2D

摘要

arXiv:2412.07214v3 宣告类型: replace-cross 摘要：探索性数据分析（EDA）与SQL结合使用，对于参与数据探索和分析的数据分析师来说至关重要。然而，数据分析师常常面临两大主要挑战：（1）熟练地编写SQL查询，以及（2）生成合适的可视化类型以增强查询结果的解读能力。鉴于其重要性，已经开展了大量研究工作，探索解决这些挑战的不同方法，包括利用大规模语言模型（LLMs）。然而，现有的方法在实际数据探索需求中表现出不足，主要原因在于（1）复杂的数据库模式；（2）不明确的用户意图；（3）有限的跨域泛化能力；以及（4）缺乏端到端的文本到可视化生成能力。本文提出了TiInsight，这是一种自动化的基于SQL的跨域探索性数据分析系统。首先，我们提出层次化数据上下文（即HDC），利用LLMs总结与数据库模式相关的上下文，这对于开放世界EDA系统跨数据域进行泛化至关重要。其次，EDA系统分为四个组件（即阶段）：HDC生成、问题澄清和分解、文本到SQL生成（即TiSQL）和数据可视化（即TiChart）。最后，我们在PingCAP的生产环境中实现了具有用户友好图形用户界面的端到端EDA系统。我们还向EDA社区开源了TiInsight的所有API，以促进相关研究。通过现实世界用户的广泛评估，我们证明了TiInsight相对于人类专家的表现极为出色。特别是在使用GPT-4的Spider数据集上，TiSQL的执行准确率达到86.3%。它还在Bird数据集上展示了最先进的性能。