LLM2D

摘要

arXiv:2505.00060v1 宣告类型: cross 摘要:大规模语言模型（LLMs）展示了通过文本到SQL生成在结构化数据查询中启用自然语言接口的潜力。然而，由于语义幻觉、结构错误以及缺乏专门的评估框架，它们在实际商业智能（BI）环境中的应用仍然有限。在这项研究中，我们提出了一种使用Exaone 3.5（一种针对企业任务优化的指令调优的双语LLM）评估LLM生成的SQL输出语义准确性的事实一致性评估框架。我们构建了一个涵盖LG电子公司内部BigQuery环境实际销售数据的领域特定基准测试，其中包括总共219个涵盖五个不同SQL复杂度等级的自然语言业务问题。每个问题都配有一个黄金标准SQL查询和一个验证过的ground-truth答案。我们使用答案准确性、执行成功率、语义错误率和无响应率来评估模型性能。实验结果表明，虽然Exaone 3.5在简单聚合任务上表现良好（在L1级别上的准确性为93%），但在算术推理（在H1级别上的准确性为4%）以及分组排名任务（在H4级别上的准确性为31%）上表现出显著下降，语义错误和无响应主要集中在复杂情况下。定性的错误分析进一步识别了常见的失效类型，如错误应用的算术逻辑、不完整的过滤和不正确的分组操作。我们的研究发现突显了LLMs在关键商业环境中的当前局限性，并强调了事实一致性验证层和混合推理方法的必要性。这项工作贡献了一个可重现的基准测试和评估方法，以促进结构化企业数据系统的可靠自然语言接口的发展。