摘要
arXiv:2412.17867v4 声明类型:替换交叉
摘要:近年来,大规模语言模型(LLMs)在文本到SQL系统方面取得了显著进步。然而,大多数基于LLM的方法往往狭隘地专注于SQL生成,忽视了实际对话查询的复杂性。这种忽视可能导致响应可靠性降低,特别是那些无法直接用SQL解决的模棱两可的问题。为了弥补这一差距,我们提出了一种名为MMSQL的全面测试套件,旨在通过模拟具有多种问题类型和多轮问答互动的真实场景来评估LLMs的问题分类和SQL生成能力。使用MMSQL,我们评估了包括开源和封闭源在内的多个流行LLMs的性能,并识别了影响其在这种场景中表现的关键因素。此外,我们引入了一个基于LLM的多代理框架,该框架使用专门的代理来识别问题类型并确定适当的回答策略。我们的实验表明,这种方法极大地增强了模型处理对话动态复杂性的能力,有效地处理了用户查询的多样性和复杂性。我们的数据集和代码可以在https://mcxiaoxiao.github.io/MMSQL 公开获取。