摘要
arXiv:2502.11201v2 宣告类型: cross
摘要: 非结构化和半结构化数据处理方面出色表现使得NoSQL数据库越来越受欢迎,这突显了非技术用户与复杂数据库查询之间的差距需要用户友好的界面来填充这一空白。在本文中,我们介绍了Text-to-NoSQL任务,旨在将自然语言查询转换为NoSQL查询,从而降低非专家用户的技术门槛。为了促进该领域的研究,我们开发了一种新的自动化数据集构建过程,并为此任务发布了大规模的开源数据集TEND(Text-to-NoSQL Dataset)。此外,我们设计了一个名为SMART(Small Language Model-Assisted and Retrieval-augmented Generation-Assisted Multi-step Framework)的多步框架,该框架专为Text-to-NoSQL转换而设计。为了确保模型评估的全面性,我们还引入了一套详细的评估指标,从查询本身及其执行结果两方面评估模型性能。我们的实验结果表明了我们方法的有效性,并为该新兴领域的未来研究建立了基准。我们认为,我们的贡献将为更易于访问和直观的NoSQL数据库交互铺平道路。