摘要
为了解决将自然语言查询转换为 SQL 命令这一关键问题,我们提出了一套紧凑的微调模型和自优化机制,旨在为非专业用户提供数据访问和分析的民主化途径,同时缓解了封闭式大型语言模型带来的风险。具体而言,我们构建了一个包含超过 20,000 个样本的文本到 SQL 数据集以及偏好数据集,以提高 SQL 生成领域的效率。为了进一步确保代码有效性,我们还在模型中集成了代码校正器。我们的系统 DataGpt-sql 在 spider-dev 上分别取得了 87.2% 的准确率,展示了我们的解决方案在文本到 SQL 转换任务中的有效性。我们的代码、数据和模型可在 \url{https://github.com/CainiaoTechAi/datagpt-sql-7b} 获取。