摘要
arXiv:2505.00016v2 公告类型: 替换-交叉
摘要:本文将 Text-to-SQL 任务重新定义为教大规模语言模型(LLMs)在表格数据上进行推理和操作的一种途径——超越传统的查询生成重点。我们提出了一种两阶段框架,利用 SQL 监督来发展可转移的表格推理能力。首先,我们从真实的 SQL 查询中综合详细的推理链(CoT)痕迹,提供逐步、语句级别的监督,教导模型如何遍历、筛选和聚合表格字段。其次,我们引入了一种组相对政策优化(GRPO)的强化学习目标,通过鼓励超过特定任务语法的步骤,并在不同数据集中迁移,将 SQL 执行准确性与可泛化的推理连接起来。实验证明,我们的方法在标准的 Text-to-SQL 基准测试中提高了性能,并在注重推理的数据集中,如 BIRD 和 CRT-QA 上取得了显著的提升,展示了增强的泛化能力和可解释性。具体来说,蒸馏量化 LLaMA 模型在 Text-to-SQL 任务训练后,准确率相对提高了 33.9%,而 Qwen 相对提高了 14.5%。这些结果表明,SQL 不仅可以作为目标形式化语言,还可以作为一种有效的支撑结构,用于在结构化数据上学习稳健且可转移的推理。