LLM2D

摘要

arXiv:2412.17867v3 宣告类型: replace-cross 摘要：近年来，大型语言模型（LLMs）在文本到SQL系统方面取得了显著进展。然而，大多数基于LLM的方法往往狭隘地专注于SQL生成，忽视了现实世界对话查询的复杂性。这种忽视可能导致对答案的不可靠性，特别是那些不能直接用SQL回答的具有歧义的问题。为了弥补这一差距，我们提出了MMSQL，这是一个全面的测试套件，旨在通过模拟各种问题类型和多轮问答交互来评估LLMs的问题分类和SQL生成能力。利用MMSQL，我们评估了流行的LLM，包括开源和封闭源模型，并确定了这些场景中影响其性能的关键因素。此外，我们介绍了一种基于LLM的多智能体框架，该框架使用专门的智能体来识别问题类型并确定适当的回答策略。我们的实验表明，这种方法显著增强了模型处理对话动态复杂性的能力，有效地处理了用户查询的多样性和复杂性。我们的数据集和代码可以在 https://mcxiaoxiao.github.io/MMSQL 公开获取。