摘要
arXiv:2412.17867v2 公告类型: 替换-交叉
摘要:大型语言模型(LLMs)的最新进展显著推进了文本到SQL系统的进展。然而,大多数基于LLM的方法往往仅限于SQL生成,忽视了真实世界对话查询的复杂性。这种忽视可能导致不可靠的回答,特别是在那些不能直接用SQL解答的模糊问题中。为了弥合这一差距,我们提出了MMSQL,这是一个全面的测试套件,旨在通过模拟具有多种问题类型和多轮问答交互的真实世界场景来评估LLMs的问题分类和SQL生成能力。借助MMSQL,我们评估了包括开源和闭源模型在内的流行LLM的性能,并确定了影响其在这种场景下性能的关键因素。此外,我们提出了一种基于LLM的多智能体框架,该框架使用专门的智能体来识别问题类型并确定合适的回答策略。我们的实验表明,这种方法显著增强了模型处理对话动态复杂性的能力,有效地应对用户查询的多样性和复杂性。我们的数据集和代码可在https://mcxiaoxiao.github.io/MMSQL公开获取。