LLM2D

摘要

随着大型语言模型（LLM）越来越多地用于将自然语言查询转换为商业数据库的SQL，校准至关重要。本研究调查了为生成的SQL查询分配置信度的校准技术。我们表明，一个简单的基线——从模型的全序列概率中推导出置信度——优于最近依赖于后续提示进行自我检查和置信度表达的方法。我们在两个广泛使用的文本到SQL基准测试和多个LLM架构上进行了全面的评估，为各种校准策略的有效性提供了宝贵的见解。