LLM2D

摘要

arXiv:2502.08045v1 类型: cross 摘要：大量研究依赖于封闭式多项选择问卷来评估大型语言模型（LLMs）的文化一致性。在这项工作中，我们挑战这一受限的评估范式，并探索更为现实且不受限制的方法。通过使用世界价值观调查（WVS）和霍夫斯泰德文化维度作为案例研究，我们展示了在不受限制的环境中，响应不受强迫的情况下，LLMs表现出更强的文化一致性。此外，我们还表明，即使是轻微的变化，如重新排列问卷选项，也会导致不一致的输出，揭示了封闭式评估的局限性。我们的研究结果倡导建立更为稳健和灵活的评估框架，重点关注特定的文化指标，鼓励对LLMs的文化一致性进行更加细致和准确的评估。