LLM2D
打破复选框:挑战对LLM文化对齐的封闭式评估
Break the Checkbox: Challenging Closed-Style Evaluations of Cultural Alignment in LLMs
作者: Mohsinul Kabir, Ajwad Abrar, Sophia Ananiadou
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08045v1

摘要

arXiv:2502.08045v1 类型: cross 摘要:大量研究依赖于封闭式多项选择问卷来评估大型语言模型(LLMs)的文化一致性。在这项工作中,我们挑战这一受限的评估范式,并探索更为现实且不受限制的方法。通过使用世界价值观调查(WVS)和霍夫斯泰德文化维度作为案例研究,我们展示了在不受限制的环境中,响应不受强迫的情况下,LLMs表现出更强的文化一致性。此外,我们还表明,即使是轻微的变化,如重新排列问卷选项,也会导致不一致的输出,揭示了封闭式评估的局限性。我们的研究结果倡导建立更为稳健和灵活的评估框架,重点关注特定的文化指标,鼓励对LLMs的文化一致性进行更加细致和准确的评估。