LLM2D

摘要

arXiv:2412.17867v4 声明类型：替换交叉摘要：近年来，大规模语言模型（LLMs）在文本到SQL系统方面取得了显著进步。然而，大多数基于LLM的方法往往狭隘地专注于SQL生成，忽视了实际对话查询的复杂性。这种忽视可能导致响应可靠性降低，特别是那些无法直接用SQL解决的模棱两可的问题。为了弥补这一差距，我们提出了一种名为MMSQL的全面测试套件，旨在通过模拟具有多种问题类型和多轮问答互动的真实场景来评估LLMs的问题分类和SQL生成能力。使用MMSQL，我们评估了包括开源和封闭源在内的多个流行LLMs的性能，并识别了影响其在这种场景中表现的关键因素。此外，我们引入了一个基于LLM的多代理框架，该框架使用专门的代理来识别问题类型并确定适当的回答策略。我们的实验表明，这种方法极大地增强了模型处理对话动态复杂性的能力，有效地处理了用户查询的多样性和复杂性。我们的数据集和代码可以在https://mcxiaoxiao.github.io/MMSQL 公开获取。