摘要
arXiv:2502.08045v1 类型: cross
摘要:大量研究依赖于封闭式多项选择问卷来评估大型语言模型(LLMs)的文化一致性。在这项工作中,我们挑战这一受限的评估范式,并探索更为现实且不受限制的方法。通过使用世界价值观调查(WVS)和霍夫斯泰德文化维度作为案例研究,我们展示了在不受限制的环境中,响应不受强迫的情况下,LLMs表现出更强的文化一致性。此外,我们还表明,即使是轻微的变化,如重新排列问卷选项,也会导致不一致的输出,揭示了封闭式评估的局限性。我们的研究结果倡导建立更为稳健和灵活的评估框架,重点关注特定的文化指标,鼓励对LLMs的文化一致性进行更加细致和准确的评估。