LLM2D
基于 Exaone 3.5 对业务智能中文本到SQL生成的事实一致性评估
Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5
作者: Jeho Choi
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00060v1

摘要

arXiv:2505.00060v1 宣告类型: cross 摘要:大规模语言模型(LLMs)展示了通过文本到SQL生成在结构化数据查询中启用自然语言接口的潜力。然而,由于语义幻觉、结构错误以及缺乏专门的评估框架,它们在实际商业智能(BI)环境中的应用仍然有限。在这项研究中,我们提出了一种使用Exaone 3.5(一种针对企业任务优化的指令调优的双语LLM)评估LLM生成的SQL输出语义准确性的事实一致性评估框架。我们构建了一个涵盖LG电子公司内部BigQuery环境实际销售数据的领域特定基准测试,其中包括总共219个涵盖五个不同SQL复杂度等级的自然语言业务问题。每个问题都配有一个黄金标准SQL查询和一个验证过的ground-truth答案。我们使用答案准确性、执行成功率、语义错误率和无响应率来评估模型性能。实验结果表明,虽然Exaone 3.5在简单聚合任务上表现良好(在L1级别上的准确性为93%),但在算术推理(在H1级别上的准确性为4%)以及分组排名任务(在H4级别上的准确性为31%)上表现出显著下降,语义错误和无响应主要集中在复杂情况下。定性的错误分析进一步识别了常见的失效类型,如错误应用的算术逻辑、不完整的过滤和不正确的分组操作。我们的研究发现突显了LLMs在关键商业环境中的当前局限性,并强调了事实一致性验证层和混合推理方法的必要性。这项工作贡献了一个可重现的基准测试和评估方法,以促进结构化企业数据系统的可靠自然语言接口的发展。