LLM2D

摘要

arXiv:2505.08435v1 Announce Type: cross 摘要：最近在文本嵌入方面的进展显著提高了多种语言的自然语言理解能力，然而，波斯语在大规模嵌入研究中仍然明显被忽视。在这篇论文中，我们介绍了Hakim，这是一种新型的最先进的波斯文本嵌入模型，在FaMTEB基准测试中，其性能比现有方法提高了8.5%，并且超过了以往开发的所有波斯语言模型。作为这项工作的部分，我们引入了三个新的数据集——Corpesia、Pairsia-sup和Pairsia-unsup，以支持监督和无监督的训练场景。此外，Hakim 旨在应用于聊天机器人和检索增强生成（RAG）系统，特别针对需要在这些系统中结合消息历史记录的检索任务。我们还提出了一个基于BERT架构的新基准模型。我们的语言模型在各种波斯NLP任务中的一致性表现较高，而基于RetroMAE的模型在文本信息检索应用中尤其有效。这些贡献共同建立了一个新的基础，以促进波斯语言理解的进步。