LLM2D

摘要

arXiv:2504.08863v1 类型: cross 摘要: 作为智能代理的大型语言模型（LLMs）越来越多地应用于涉及人类互动的场景中，这引发了对LLMs是否忠实于地区间文化变化的严重关切。已有许多研究从不同角度探讨了这一问题，发现LLMs的文化输出中存在偏见。为了获得更全面的视角，在这项工作中，我们首次进行大规模评估，评估10个LLM在20个国家的文化和语言方面的情况。我们使用著名的文化价值观问卷，并仔细分析LLM输出与人类真相得分，全面研究了LLMs在不同国家和不同模型之间的文化一致性。我们的研究发现，所有模型的输出代表了适度的文化中间地带。鉴于整体偏差，我们提出了一个一致性度量标准，指出美国是最一致的国家，而GLM-4在与文化价值观的一致性方面表现最佳。深入调查还揭示了模型起源、提示语言和价值观维度对文化输出的影响。具体来说，无论模型源自何处，它们与美国的文化一致性都优于与中国的一致性。这些结论提供了如何更好地使LLMs与各种文化对齐的见解，并激发了进一步讨论LLMs传播文化偏见的可能性及需要更多文化适应性模型的必要性。