摘要
arXiv:2504.08863v1 类型: cross
摘要: 作为智能代理的大型语言模型(LLMs)越来越多地应用于涉及人类互动的场景中,这引发了对LLMs是否忠实于地区间文化变化的严重关切。已有许多研究从不同角度探讨了这一问题,发现LLMs的文化输出中存在偏见。为了获得更全面的视角,在这项工作中,我们首次进行大规模评估,评估10个LLM在20个国家的文化和语言方面的情况。我们使用著名的文化价值观问卷,并仔细分析LLM输出与人类真相得分,全面研究了LLMs在不同国家和不同模型之间的文化一致性。我们的研究发现,所有模型的输出代表了适度的文化中间地带。鉴于整体偏差,我们提出了一个一致性度量标准,指出美国是最一致的国家,而GLM-4在与文化价值观的一致性方面表现最佳。深入调查还揭示了模型起源、提示语言和价值观维度对文化输出的影响。具体来说,无论模型源自何处,它们与美国的文化一致性都优于与中国的一致性。这些结论提供了如何更好地使LLMs与各种文化对齐的见解,并激发了进一步讨论LLMs传播文化偏见的可能性及需要更多文化适应性模型的必要性。