LLM2D

摘要

arXiv:2505.08435v2 宣告类型: 替换-交叉摘要：近年来，在文本嵌入方面的进步显著提升了多种语言的自然语言理解能力，但波斯语在大规模嵌入研究中的代表性仍然较为不足。在本文中，我们提出了Hakim，一种新型的波斯文本嵌入模型，它在FaMTEB基准测试上比现有方法高出8.5%的性能改进，并且优于之前开发的所有波斯语言模型。作为这项工作的组成部分，我们引入了三个新的数据集——Corpesia、Pairsia-sup和Pairsia-unsup ——以支持有监督和无监督的训练场景。此外，Hakim 设计用于聊天机器人和检索增强生成（RAG）系统，特别是解决需要在这些系统中结合消息历史的检索任务。我们还提出了基于BERT架构的新基线模型。我们的语言模型在各种波斯NLP任务中的一致性较高精度，而以RetroMAE为基础的模型特别适合文本信息检索应用。这些贡献共同为推进波斯语言理解奠定了新的基础。