摘要
关系型数据库经常受到表内容描述不清的影响,例如含糊的列和难以解释的值,这会影响人类用户和文本到SQL模型。在本文中,我们探索了使用大型语言模型(LLMs)自动生成SQL数据库列的详细自然语言描述,以期提高文本到SQL的性能并自动创建元数据。我们基于BIRD-Bench基准创建了一个金标准列描述的数据集,手动修订其列描述并创建了一个分类列难度的分类法。通过评估多个LLMs,我们发现加入这些列描述可以一致地提升文本到SQL模型的性能,尤其是对于较大的模型如GPT-4o、Qwen2 72B和Mixtral 22Bx8。然而,模型在处理本身就存在模糊性的列时仍然存在困难,强调了需要人工专家的输入。值得注意的是,尽管Qwen2生成的描述中包含被注释者认为多余的信息,但其表现优于手动整理的金标准描述,这表明模型从比人类预期更详细的元数据中受益。未来的工作将研究这些高性能描述的具体特征,并探索其他类型的元数据,例如数字推理和同义词,以进一步改进文本到SQL系统。数据集、注释和代码都将公开。