摘要
arXiv:2502.05237v1 类型: cross
摘要:将自然语言(NL)问题转换为可执行的结构化查询语言(SQL)查询以进行文本到SQL任务具有挑战性,这主要是由于数据库模式中的冗余性众多,这妨碍了语义学习,并且自然语言(NL)与SQL之间的领域差异。现有的模式链接工作主要关注表级别,并且只进行一次链接,忽略了模式的多粒度语义和链接的循环性。本文中,我们提出了一种渐进式多粒度模式链接(PSM-SQL)框架,以减少用于文本到SQL的冗余数据库模式。通过使用多粒度模式链接(MSL)模块,PSM-SQL在列、表和数据库级别学习模式语义。更具体地,在列级别使用三元组损失来学习嵌入,而在数据库级别通过微调LLMs进行模式推理。MSL使用分类器和相似度分数来建模表级别模式链接的模式交互。特别是,PSM-SQL采用链循环策略,通过连续减少冗余模式的数量来降低模式链接任务的难度。在文本到SQL数据集上进行的实验表明,所提出的PSM-SQL方法在准确率上高于现有方法1-3个百分点。