LLM2D
Matina:大规模73B TOKEN波斯文文本语料库
Matina: A Large-Scale 73B Token Persian Text Corpus
作者: Sara Bourbour Hosseinbeigi, Fatemeh Taherinezhad, Heshaam Faili, Hamed Baghbani, Fatemeh Nadi, Mostafa Amiri
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09188v1

摘要

arXiv:2502.09188v1 宣言类型:交叉 摘要:文本语料库对于训练用于摘要、翻译和大规模语言模型(LLMs)的任务的模型至关重要。尽管已经在多种语言中努力收集单语和多语种数据集,但由于数据收集和预处理资源有限,波斯语往往受到忽视。现有的波斯语数据集通常规模较小且缺乏内容多样性,主要由博客文章和新闻文章组成。由于高质量、多样化的数据的缺乏阻碍了波斯语NLP模型和开源LLMs的发展,波斯语模型的性能很大程度上依赖于训练数据的质量,我们通过介绍一个新的波斯语语料库——Matina语料库,解决了这一差距,该语料库包含729亿个标记,经过精心预处理和去重,以确保高质量的数据。我们进一步通过在关键NLP任务上训练和评估基于变压器的模型来评估其有效性。数据集和预处理代码均已公开,使研究人员能够在此基础上进一步发展和改进这一资源,促进未来波斯语NLP的发展。