LLM2D

摘要

arXiv:2505.00016v2 公告类型: 替换-交叉摘要：本文将 Text-to-SQL 任务重新定义为教大规模语言模型（LLMs）在表格数据上进行推理和操作的一种途径——超越传统的查询生成重点。我们提出了一种两阶段框架，利用 SQL 监督来发展可转移的表格推理能力。首先，我们从真实的 SQL 查询中综合详细的推理链（CoT）痕迹，提供逐步、语句级别的监督，教导模型如何遍历、筛选和聚合表格字段。其次，我们引入了一种组相对政策优化（GRPO）的强化学习目标，通过鼓励超过特定任务语法的步骤，并在不同数据集中迁移，将 SQL 执行准确性与可泛化的推理连接起来。实验证明，我们的方法在标准的 Text-to-SQL 基准测试中提高了性能，并在注重推理的数据集中，如 BIRD 和 CRT-QA 上取得了显著的提升，展示了增强的泛化能力和可解释性。具体来说，蒸馏量化 LLaMA 模型在 Text-to-SQL 任务训练后，准确率相对提高了 33.9%，而 Qwen 相对提高了 14.5%。这些结果表明，SQL 不仅可以作为目标形式化语言，还可以作为一种有效的支撑结构，用于在结构化数据上学习稳健且可转移的推理。