LLM2D
CulturalBench:一个鲁棒、多样化和具有挑战性的基准,用于衡量大型语言模型的文化知识(缺失)
CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs
作者: Yu Ying Chiu, Liwei Jiang, Bill Yuchen Lin, Chan Young Park, Shuyue Stella Li, Sahithya Ravi, Mehar Bhatia, Maria Antoniak, Yulia Tsvetkov, Vered Shwartz, Yejin Choi
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02677v1

摘要

为了使大型语言模型 (LLMs) 能够更好地服务于各种文化,建立有效的文化知识基准来衡量和跟踪我们的进展至关重要。有效的基准需要具备鲁棒性、多样性和挑战性。我们引入了 CulturalBench:一个包含 1,227 个由人工编写和验证的问题集,用于有效地评估 LLMs 的文化知识,涵盖 45 个全球地区,包括孟加拉国、津巴布韦和秘鲁等代表性不足的地区。每个问题都经过五位独立标注者的验证,涵盖 17 个不同的主题,从食物偏好到问候礼仪。我们通过两种设置评估模型:CulturalBench-Easy 和 CulturalBench-Hard,它们使用相同的问题,但提问方式不同。我们发现 LLMs 对这些设置的差异很敏感(例如,GPT-4o 的差异为 27.3%)。与人类表现(92.6% 的准确率)相比,CulturalBench-Hard 对前沿 LLMs 来说更具挑战性,表现最佳的模型 (GPT-4o) 仅为 61.5%,表现最差的模型 (Llama3-8b) 为 21.4%。此外,我们发现 LLMs 经常难以处理有多个正确答案的棘手问题(例如,中国人通常使用什么餐具?),这表明它们倾向于收敛到一个答案。我们的结果还表明,OpenAI GPT-4o 在除一个地区(大洋洲)以外的所有地区的问题上都显著优于其他专有和开源模型。然而,所有模型在与南美洲和中东相关的问题上始终表现不佳。