LLM2D

摘要

为了解决将自然语言查询转换为 SQL 命令这一关键问题，我们提出了一套紧凑的微调模型和自优化机制，旨在为非专业用户提供数据访问和分析的民主化途径，同时缓解了封闭式大型语言模型带来的风险。具体而言，我们构建了一个包含超过 20,000 个样本的文本到 SQL 数据集以及偏好数据集，以提高 SQL 生成领域的效率。为了进一步确保代码有效性，我们还在模型中集成了代码校正器。我们的系统 DataGpt-sql 在 spider-dev 上分别取得了 87.2% 的准确率，展示了我们的解决方案在文本到 SQL 转换任务中的有效性。我们的代码、数据和模型可在 \url{https://github.com/CainiaoTechAi/datagpt-sql-7b} 获取。