摘要
arXiv:2503.21602v1 宣告类型: 新
摘要: 受大型语言模型推动的Text-to-SQL的最近进步正在民主化数据访问。尽管如此,由于需要捕获业务特定知识、处理复杂查询并满足持续改进的期望,企业部署仍然充满挑战。为了应对这些挑战,我们设计并实现了GenEdit:一种随着用户反馈而改进的Text-to-SQL生成系统。GenEdit构建并维护了一个公司特定的知识集,采用了一种操作流水线分解SQL生成,并使用反馈更新其知识集以改进未来的SQL生成。
我们描述了由两个核心模块构成的GenEdit架构:(i)分解SQL生成;(ii)基于用户反馈的知识集编辑。在生成方面,GenEdit利用复合操作符提高知识检索并创建一个引导生成的过程链式思考步骤。在初始检索阶段,GenEdit根据原始SQL查询分解成子语句、子句或子查询来检索相关示例。然后,它还检索指令和模式元素。利用检索到的上下文信息,GenEdit以自然语言生成逐步计划,说明如何生成查询。最后,GenEdit使用该计划生成SQL,从而减少对模型推理的需求,从而增强复杂SQL生成。如果必要,GenEdit将根据语法和语义错误重新生成查询。知识集编辑通过一个交互式副驾提出,允许用户迭代其反馈并根据需要重新生成SQL查询。每次生成都使用分阶段编辑更新生成提示。一旦反馈提交,它会通过回归测试并获得批准后合并,从而提高未来的生成质量。