LLM2D
通过文本到SQL强化学习引发的表格推理火花
Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning
作者: Josefa Lia Stoisser, Marc Boubnovski Martell, Julien Fauqueur
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00016v1

摘要

arXiv:2505.00016v1 类型:交叉学科 摘要:本文重新定义了文本到SQL的任务,作为教导大规模语言模型(LLMs)在表结构数据上进行推理和操作的一种途径——超越了传统上对查询生成的关注。我们提出了一种两阶段框架,利用SQL监督来发展可转移的表推理能力。首先,我们从真实的SQL查询中综合详细的思维链(CoT)追踪,提供逐步的、逐子句级别的监督,教导模型如何遍历、过滤和聚合表字段。其次,我们引入了组相对策略优化(GRPO)强化学习目标,将SQL执行准确性与可泛化的推理连接起来,通过鼓励超出任务特定语法的步骤并跨越不同数据集进行转移来实现。从实验结果来看,我们的方法在标准的文本到SQL基准测试上提高了性能,并在如BIRD和CRT-QA这类推理密集的数据集上取得了显著的提升,展示了增强的泛化能力和可解释性。具体来说,精简量化后的LLaMA模型在训练文本到SQL任务时,准确率提高了20%,而Qwen则提高了5%。这些结果表明,SQL不仅可以作为目标的形式主义,还可以作为一种有效的脚手架,用于学习在结构化数据上进行稳健且可转移的推理。