LLM2D

摘要

arXiv:2504.14690v1 Announce Type: cross 摘要：对于资源丰富的语言如英语来说，对大型语言模型（LLMs）进行评估和分析的研究已经非常广泛，然而对于波斯语等语言的性能则受到了相对较少的关注。本文介绍了FarsEval-PKBETS基准，这是FarsEval项目的一个子集，用于评估波斯语中的大型语言模型。该基准包括4000个采用各种格式的问题和答案，包括多项选择题、简答题和描述性回答。它涵盖了广泛的领域和任务，包括医学、法律、宗教、波斯语、百科知识、人类偏好、社会知识、伦理和偏见、文本生成以及尊重他人的权利。该基准结合了与波斯语和伊朗相关的语言学、文化和地方性考虑。为了确保这些问题能够对当前的LLMs构成挑战性，使用了三个模型——Llama3-70B、PersianMind和Dorna——进行了评估。这些模型的平均准确率低于50%，意味着它们能完全正确回答的问题不到总数的一半。这些结果表明，当前的语言模型仍然远远不能解决这个基准任务。