LLM2D

摘要

arXiv:2503.19988v1 Announce Type: cross 摘要：将自然语言问题转换为结构化查询需要精确的推理。虽然大型语言模型（LLMs）在许多推理任务中表现出色，但在文本到SQL（Text-to-SQL）任务中利用链式思维（Chain-of-Thought, CoT）推理的能力仍然未得到充分利用。我们识别出关键的限制：零样本CoT带来的增益微乎其微，而不结合CoT应用直接偏好优化（DPO）仅带来边际改进。我们提出了ExCoT，这是一种新颖的框架，通过将CoT推理与离策略和在策略的DPO相结合，迭代优化开源LLMs，仅依赖于执行准确度作为反馈。这种方法消除了对奖励模型或人工标注偏好数据的需要。我们的实验结果表明显著的性能提升：ExCoT将LLaMA-3 70B在BIRD dev集上的执行准确度从57.37%提高到68.51%，以及在Spider test集上的准确度从78.81%提高到86.59%。Qwen-2.5-Coder模型在这些改进方面也表现出相似的结果。我们的最佳模型在BIRD和Spider数据集的单模型设置中均达到了最先进的性能，在BIRD test集上达到了68.53%的准确度。