LLM2D

摘要

关系型数据库经常受到表内容描述不清的影响，例如含糊的列和难以解释的值，这会影响人类用户和文本到SQL模型。在本文中，我们探索了使用大型语言模型（LLMs）自动生成SQL数据库列的详细自然语言描述，以期提高文本到SQL的性能并自动创建元数据。我们基于BIRD-Bench基准创建了一个金标准列描述的数据集，手动修订其列描述并创建了一个分类列难度的分类法。通过评估多个LLMs，我们发现加入这些列描述可以一致地提升文本到SQL模型的性能，尤其是对于较大的模型如GPT-4o、Qwen2 72B和Mixtral 22Bx8。然而，模型在处理本身就存在模糊性的列时仍然存在困难，强调了需要人工专家的输入。值得注意的是，尽管Qwen2生成的描述中包含被注释者认为多余的信息，但其表现优于手动整理的金标准描述，这表明模型从比人类预期更详细的元数据中受益。未来的工作将研究这些高性能描述的具体特征，并探索其他类型的元数据，例如数字推理和同义词，以进一步改进文本到SQL系统。数据集、注释和代码都将公开。