LLM2D
FarsEval-PKBETS:一个新的多样化基准,用于评估波斯大型语言模型
FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models
作者: Mehrnoush Shamsfard, Zahra Saaberi, Mostafa Karimi manesh, Seyed Mohammad Hossein Hashemi, Zahra Vatankhah, Motahareh Ramezani, Niki Pourazin, Tara Zare, Maryam Azimi, Sarina Chitsaz, Sama Khoraminejad, Morteza Mahdavi Mortazavi, Mohammad Mahdi Chizari, Sahar Maleki, Seyed Soroush Majd, Mostafa Masumi, Sayed Ali Musavi Khoeini, Amir Mohseni, Sogol Alipour
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14690v1

摘要

arXiv:2504.14690v1 Announce Type: cross 摘要:对于资源丰富的语言如英语来说,对大型语言模型(LLMs)进行评估和分析的研究已经非常广泛,然而对于波斯语等语言的性能则受到了相对较少的关注。本文介绍了FarsEval-PKBETS基准,这是FarsEval项目的一个子集,用于评估波斯语中的大型语言模型。该基准包括4000个采用各种格式的问题和答案,包括多项选择题、简答题和描述性回答。它涵盖了广泛的领域和任务,包括医学、法律、宗教、波斯语、百科知识、人类偏好、社会知识、伦理和偏见、文本生成以及尊重他人的权利。该基准结合了与波斯语和伊朗相关的语言学、文化和地方性考虑。为了确保这些问题能够对当前的LLMs构成挑战性,使用了三个模型——Llama3-70B、PersianMind和Dorna——进行了评估。这些模型的平均准确率低于50%,意味着它们能完全正确回答的问题不到总数的一半。这些结果表明,当前的语言模型仍然远远不能解决这个基准任务。