LLM2D

摘要

arXiv:2503.23157v2 通知类型: 替换-交叉摘要：文本到SQL是一个涉及多个推理密集型子任务的挑战性任务，包括自然语言理解、数据库模式理解以及精确的SQL查询制定。现有的方法往往依赖于手工设计的推理路径，具有诱导偏见，这可能会限制它们的整体有效性。受近年来诸如DeepSeek R1和OpenAI o1等增强推理模型的成功启发，这些模型通过奖励驱动的自我探索有效提升了推理能力和泛化能力，我们提出了一套针对文本到SQL任务的新型部分奖励。我们的奖励集包括模式链接、AI反馈、n-克_variation相似度和语法检测，明确设计以解决强化学习（RL）中普遍存在的奖励稀疏问题。利用分组相对策略优化（GRPO），我们的方法明确鼓励大型语言模型（LLMs）发展必要的内在推理技能，以实现精确的SQL查询生成。通过不同规模的模型我们展示了，使用我们提出的奖励进行仅RL训练相对于监督微调（SFT）在准确性和泛化能力上具有显着优势。令人惊讶的是，在BIRD基准测试中，我们的RL训练14B参数模型相比更大规模的私有模型（如o3-mini和Gemini-1.5-Pro-002）分别取得了4%和3%的显著性能提升。这些结果突显了我们提出的部分奖励强化学习训练框架在提高文本到SQL任务的准确性和推理能力方面的有效性。