LLM2D

摘要

arXiv:2502.07459v1 宣告类型: cross 摘要: 大型语言模型主要反映了西方文化，这主要是由于以英语为中心的训练数据的主导地位。这种不平衡带来了重大挑战，因为LLMs在具有不同背景的环境中越来越被使用，而这些环境中缺乏对其在非英语语言，包括波斯语方面的文化适应性的充分评估。为了解决这一差距，我们引入了PerCul，这是一个精心构建的数据集，旨在评估LLMs对波斯文化的敏感性。PerCul包含基于故事的多项选择题，这些题目捕捉到了文化上微妙的场景。与现有的基准测试不同，PerCul经过本地波斯语注释者的筛选，以确保真实性和防止使用翻译作为捷径。我们评估了几个最先进的多语言和波斯语专用的LLMs，为跨文化NLP评估的未来研究奠定了基础。我们的实验表明，在最佳闭源模型与非专业基线之间存在11.3%的差距，而在使用最佳开源权重模型时，这一差距增加到21.3%。您可以从这里访问数据集：https://huggingface.co/datasets/teias-ai/percul