LLM2D

摘要

arXiv:2502.08045v2 宣告类型: replace-cross 摘要：许多研究依赖于封闭式多项选择调查来评估大型语言模型（LLMs）的文化一致性。在这项工作中，我们挑战了这种受限的评估范式，并探索了更加现实且不受限制的方法。通过将世界价值观调查（WVS）和霍夫斯泰德文化维度作为案例研究，我们证明了在不强制响应的较少受限环境中，LLMs表现出更强的文化一致性。此外，我们展示了即使是微小的变化，如重新排列调查选项，也会导致输出不一致，这揭示了封闭式评估的局限性。我们的研究结果倡导更稳健和灵活的评估框架，重点关注特定的文化指标，鼓励对LLMs的文化一致性进行更加细致和准确的评估。