LLM2D
Distill-C:通过LLM强化定制化的NL2SQL增强版
Distill-C: Enhanced NL2SQL via Distilled Customization with LLMs
作者: Cong Duy Vu Hoang, Gioacchino Tangari, Clemence Lanfranchi, Dalu Guo, Paul Cayet, Steve Siu, Don Dharmasiri, Yuan-Fang Li, Long Duong, Damien Hilloulin, Rhicheek Patra, Sungpack Hong, Hassan Chafi
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00048v1

摘要

arXiv:2504.00048v1 类型: cross 摘要:大型语言模型(LLMs)在商业应用中越来越广泛的应用,放大了对自然语言到SQL(NL2SQL)解决方案的兴趣,在这种解决方案中,高性能和效率之间存在竞争需求。特定领域的和客户的特定需求进一步使问题复杂化。为了解决这一困境,我们介绍了Distill-C,这是一种专为NL2SQL任务量身定制的蒸馏定制框架。Distill-C利用大型教师LLM通过一个稳健且可扩展的管道生成高质量的合成数据。在这些合成数据上微调较小且开源的LLM能够使其在性能上与教师模型相差一个数量级。在多个具挑战性的基准上评估,Distill-C在执行准确性上相对于三个不同LLM家族的基础模型平均提高了36%。此外,在三个内部客户基准上,Distill-C在性能上相对于基础模型提高了22.6%。我们的结果表明,Distill-C是一种有效、高性能且可推广的方法,用于部署轻量且强大的NL2SQL模型,在保持低计算成本的同时提供卓越的准确性。