摘要
arXiv:2502.11022v1 交叉类型:cross
摘要:在大数据时代,自然语言接口对于NoSQL数据库变得越来越重要,使得用户能够无需深厚的技术知识就能与复杂且未结构化的数据进行交互。然而,最近的大多数进展都集中在英语上,导致了多语言支持方面的差距。本文介绍了MultiTEND,这是首个也是最大的用于自然语言到NoSQL查询生成的多语言基准,涵盖了六种语言:英语、德语、法语、俄语、日语和 Mandarin 中文。通过使用 MultiTEND,我们分析了在多种语言结构之间翻译自然语言到NoSQL查询所面临的挑战,包括词汇和句法差异。实验结果显示,在英语和非英语环境中,性能准确性相对较低,各种场景如微调SLM、零样本LLM、以及LLM的RAG之间存在4%-6%的差距。为了解决上述挑战,我们引入了MultiLink,这是一种新的框架,通过并行链接过程弥合了多语言输入到NoSQL查询生成的差距。MultiLink 将任务分解成多个步骤,集成并行多语言处理、Chain-of-Thought (CoT)推理和 Retrieval-Augmented Generation (RAG),以应对多语言NoSQL生成中固有的词汇和结构挑战。MultiLink 在每种语言中都提高了所有指标,相比顶级基准提高了约15%的执行准确性,非英语语言的平均改进幅度为10%。