LLM2D

摘要

为了使大型语言模型 (LLMs) 能够更好地服务于各种文化，建立有效的文化知识基准来衡量和跟踪我们的进展至关重要。有效的基准需要具备鲁棒性、多样性和挑战性。我们引入了 CulturalBench：一个包含 1,227 个由人工编写和验证的问题集，用于有效地评估 LLMs 的文化知识，涵盖 45 个全球地区，包括孟加拉国、津巴布韦和秘鲁等代表性不足的地区。每个问题都经过五位独立标注者的验证，涵盖 17 个不同的主题，从食物偏好到问候礼仪。我们通过两种设置评估模型：CulturalBench-Easy 和 CulturalBench-Hard，它们使用相同的问题，但提问方式不同。我们发现 LLMs 对这些设置的差异很敏感（例如，GPT-4o 的差异为 27.3%）。与人类表现（92.6% 的准确率）相比，CulturalBench-Hard 对前沿 LLMs 来说更具挑战性，表现最佳的模型 (GPT-4o) 仅为 61.5%，表现最差的模型 (Llama3-8b) 为 21.4%。此外，我们发现 LLMs 经常难以处理有多个正确答案的棘手问题（例如，中国人通常使用什么餐具？），这表明它们倾向于收敛到一个答案。我们的结果还表明，OpenAI GPT-4o 在除一个地区（大洋洲）以外的所有地区的问题上都显著优于其他专有和开源模型。然而，所有模型在与南美洲和中东相关的问题上始终表现不佳。