摘要
arXiv:2412.17867v3 宣告类型: replace-cross
摘要:近年来,大型语言模型(LLMs)在文本到SQL系统方面取得了显著进展。然而,大多数基于LLM的方法往往狭隘地专注于SQL生成,忽视了现实世界对话查询的复杂性。这种忽视可能导致对答案的不可靠性,特别是那些不能直接用SQL回答的具有歧义的问题。为了弥补这一差距,我们提出了MMSQL,这是一个全面的测试套件,旨在通过模拟各种问题类型和多轮问答交互来评估LLMs的问题分类和SQL生成能力。利用MMSQL,我们评估了流行的LLM,包括开源和封闭源模型,并确定了这些场景中影响其性能的关键因素。此外,我们介绍了一种基于LLM的多智能体框架,该框架使用专门的智能体来识别问题类型并确定适当的回答策略。我们的实验表明,这种方法显著增强了模型处理对话动态复杂性的能力,有效地处理了用户查询的多样性和复杂性。我们的数据集和代码可以在 https://mcxiaoxiao.github.io/MMSQL 公开获取。