摘要
arXiv:2502.07459v1 宣告类型: cross
摘要: 大型语言模型主要反映了西方文化,这主要是由于以英语为中心的训练数据的主导地位。这种不平衡带来了重大挑战,因为LLMs在具有不同背景的环境中越来越被使用,而这些环境中缺乏对其在非英语语言,包括波斯语方面的文化适应性的充分评估。为了解决这一差距,我们引入了PerCul,这是一个精心构建的数据集,旨在评估LLMs对波斯文化的敏感性。PerCul包含基于故事的多项选择题,这些题目捕捉到了文化上微妙的场景。与现有的基准测试不同,PerCul经过本地波斯语注释者的筛选,以确保真实性和防止使用翻译作为捷径。我们评估了几个最先进的多语言和波斯语专用的LLMs,为跨文化NLP评估的未来研究奠定了基础。我们的实验表明,在最佳闭源模型与非专业基线之间存在11.3%的差距,而在使用最佳开源权重模型时,这一差距增加到21.3%。您可以从这里访问数据集:https://huggingface.co/datasets/teias-ai/percul