LLM2D

摘要

文本到SQL生成旨在将自然语言问题转换为SQL语句。在大语言模型（LLM）驱动的文本到SQL系统中，模式链接是一种广泛采用的策略，它通过仅选择相关的模式元素来简化LLM的输入，从而减少噪声和计算开销。然而，模式链接面临着需要谨慎对待的风险，包括可能遗漏必要的元素以及破坏数据库结构完整性。为了应对这些挑战，我们提出了一种名为RSL-SQL的新颖框架，它结合了双向模式链接、上下文信息增强、二元选择策略和多轮自我校正。我们使用前向和后向剪枝方法提高了模式链接的召回率，在减少83%的输入列数量的同时，实现了94%的严格召回率。此外，它通过在增强了上下文信息的完整模式和简化模式之间进行投票来规避风险。在BIRD和Spider基准测试上的实验表明，我们的方法在开源解决方案中实现了最先进的执行精度，在BIRD上达到67.2%，在Spider上达到87.9%（使用GPT-4o）。此外，在采用DeepSeek（成本更低）且提示词不变的情况下，我们的方法优于一系列基于GPT-4的文本到SQL系统。大量的分析和消融研究证实了我们框架中每个组件的有效性。代码可在https://github.com/Laqcce-cao/RSL-SQL获取。