摘要
arXiv:2505.08435v2 宣告类型: 替换-交叉
摘要:近年来,在文本嵌入方面的进步显著提升了多种语言的自然语言理解能力,但波斯语在大规模嵌入研究中的代表性仍然较为不足。在本文中,我们提出了Hakim,一种新型的波斯文本嵌入模型,它在FaMTEB基准测试上比现有方法高出8.5%的性能改进,并且优于之前开发的所有波斯语言模型。作为这项工作的组成部分,我们引入了三个新的数据集——Corpesia、Pairsia-sup和Pairsia-unsup ——以支持有监督和无监督的训练场景。此外,Hakim 设计用于聊天机器人和检索增强生成(RAG)系统,特别是解决需要在这些系统中结合消息历史的检索任务。我们还提出了基于BERT架构的新基线模型。我们的语言模型在各种波斯NLP任务中的一致性较高精度,而以RetroMAE为基础的模型特别适合文本信息检索应用。这些贡献共同为推进波斯语言理解奠定了新的基础。