LLM2D
Sigma: 一个用于统计分析的文本到代码语义解析数据集
Sigma: A dataset for text-to-code semantic parsing with statistical analysis
作者: Saleh Almohaimeed, Shenyang Liu, May Alsofyani, Saad Almohaimeed, Liqiang Wang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04301v1

摘要

arXiv:2504.04301v1 公告类型:交叉 摘要:在语义解析领域,在文本到SQL和问答任务中已经取得了显著的进步,两者都专注于从数据源的原生格式中提取信息。然而,它们形式语义表示的固有限制,如SQL编程语言或基本逻辑形式,阻碍了它们从多个视角分析数据的能力,例如进行统计分析。为了解决这一限制并激发该领域的研究,我们设计了SIGMA,一个用于统计分析的文本到代码语义解析的新数据集。SIGMA 包含 6000 个带有相应 Python 代码标签的问题,涵盖了 160 个数据库。一半的问题涉及查询类型,这些查询以原始格式返回信息,而剩余的 50% 是统计分析问题,它们在数据上执行统计操作。我们数据集中的 Python 代码标签覆盖了 4 种查询类型和 40 种统计分析模式。我们使用三种不同的基线模型(LGESQL、SmBoP 和 SLSQL)评估了 SIGMA 数据集。实验结果表明,使用 ELECTRA 的 LGESQL 模型在结构准确性上优于其他所有模型,达到了 83.37% 的结构准确性。在执行准确性方面,结合 GraPPa 和 T5 的 SmBoP 模型达到了 76.38%。