LLM2D

摘要

arXiv:2312.16144v2 公告类型: replace-cross 摘要：由于与英语相比，特定语言的训练数据往往较为稀缺，因此许多语言的文档检索主要依赖于多语言模型。在日语中，表现最好的基于深度学习的检索方法依赖于多语言密集嵌入器，而仅限日语的模型则远远落后。然而，多语言模型需要大量的计算和数据进行训练，并且具有更高的计算和内存需求，同时往往缺乏文化相关的信息。在本文中，我们介绍了JaColBERT，一个多向量检索器家族，其训练数据量比多语言模型少两个数量级，但却达到了竞争性的性能。我们的最强模型在所有数据集上都大大优于现有的所有单语言日语检索器，并在所有非域任务中优于现有的最强多语言模型，突显了需要能够处理语言特性的专用模型。这些结果是通过一个仅有1.1亿参数的模型实现的，远小于所有多语言模型，并且仅使用有限的日语数据。我们相信，我们的成果在支持各种领域的日语检索增强应用管道方面展现了巨大的潜力。