LLM2D

摘要

arXiv:2502.09188v1 宣言类型：交叉摘要：文本语料库对于训练用于摘要、翻译和大规模语言模型（LLMs）的任务的模型至关重要。尽管已经在多种语言中努力收集单语和多语种数据集，但由于数据收集和预处理资源有限，波斯语往往受到忽视。现有的波斯语数据集通常规模较小且缺乏内容多样性，主要由博客文章和新闻文章组成。由于高质量、多样化的数据的缺乏阻碍了波斯语NLP模型和开源LLMs的发展，波斯语模型的性能很大程度上依赖于训练数据的质量，我们通过介绍一个新的波斯语语料库——Matina语料库，解决了这一差距，该语料库包含729亿个标记，经过精心预处理和去重，以确保高质量的数据。我们进一步通过在关键NLP任务上训练和评估基于变压器的模型来评估其有效性。数据集和预处理代码均已公开，使研究人员能够在此基础上进一步发展和改进这一资源，促进未来波斯语NLP的发展。