摘要
arXiv:2504.14690v1 Announce Type: cross
摘要:对于资源丰富的语言如英语来说,对大型语言模型(LLMs)进行评估和分析的研究已经非常广泛,然而对于波斯语等语言的性能则受到了相对较少的关注。本文介绍了FarsEval-PKBETS基准,这是FarsEval项目的一个子集,用于评估波斯语中的大型语言模型。该基准包括4000个采用各种格式的问题和答案,包括多项选择题、简答题和描述性回答。它涵盖了广泛的领域和任务,包括医学、法律、宗教、波斯语、百科知识、人类偏好、社会知识、伦理和偏见、文本生成以及尊重他人的权利。该基准结合了与波斯语和伊朗相关的语言学、文化和地方性考虑。为了确保这些问题能够对当前的LLMs构成挑战性,使用了三个模型——Llama3-70B、PersianMind和Dorna——进行了评估。这些模型的平均准确率低于50%,意味着它们能完全正确回答的问题不到总数的一半。这些结果表明,当前的语言模型仍然远远不能解决这个基准任务。