LLM2D

摘要

arXiv:2503.23157v1 类型: cross 摘要: 文本到SQL是一个具有挑战性的任务，涉及到多个推理密集型子任务，包括自然语言理解、数据库模式理解以及精确的SQL查询生成。现有方法通常依赖于手工设计的推理路径，这些路径的归纳偏置可能会限制它们的整体效果。受近期增强推理模型如DeepSeek R1和OpenAI o1的成功启发，这些模型能够有效利用基于奖励的自我探索来增强推理能力和泛化能力，我们提出了一组特定于文本到SQL任务的新型部分奖励。我们的奖励集包括模式链接、AI反馈、n-gram相似度和语法检查，这些设计明确地解决了强化学习（RL）中普遍存在的奖励稀疏问题。利用群组相对策略优化（GRPO），我们的方法明确鼓励大型语言模型（LLMs）发展能够准确生成SQL查询所需的内在推理技能。通过不同规模的模型，我们展示了使用我们提出的奖励进行仅RL训练的一致比监督微调（SFT）具有更高的准确度和更强的泛化能力。值得注意的是，我们的14B参数量训练的RL模型在BIRD基准测试中分别比o3-mini和Gemini-1.5-Pro-002高出4%和3%。这些结果突显了我们在文本到SQL任务中使用部分奖励进行RL训练框架的有效性，能够提升准确度和推理能力。