LLM2D
ExCoT: 基于执行反馈的文本到SQL的推理优化
ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback
作者: Bohan Zhai, Canwen Xu, Yuxiong He, Zhewei Yao
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.19988v1

摘要

arXiv:2503.19988v1 Announce Type: cross 摘要:将自然语言问题转换为结构化查询需要精确的推理。虽然大型语言模型(LLMs)在许多推理任务中表现出色,但在文本到SQL(Text-to-SQL)任务中利用链式思维(Chain-of-Thought, CoT)推理的能力仍然未得到充分利用。我们识别出关键的限制:零样本CoT带来的增益微乎其微,而不结合CoT应用直接偏好优化(DPO)仅带来边际改进。我们提出了ExCoT,这是一种新颖的框架,通过将CoT推理与离策略和在策略的DPO相结合,迭代优化开源LLMs,仅依赖于执行准确度作为反馈。这种方法消除了对奖励模型或人工标注偏好数据的需要。 我们的实验结果表明显著的性能提升:ExCoT将LLaMA-3 70B在BIRD dev集上的执行准确度从57.37%提高到68.51%,以及在Spider test集上的准确度从78.81%提高到86.59%。Qwen-2.5-Coder模型在这些改进方面也表现出相似的结果。我们的最佳模型在BIRD和Spider数据集的单模型设置中均达到了最先进的性能,在BIRD test集上达到了68.53%的准确度。