LLM2D
突破复选框:挑战对LLMs文化对齐性的封闭式评估
Break the Checkbox: Challenging Closed-Style Evaluations of Cultural Alignment in LLMs
作者: Mohsinul Kabir, Ajwad Abrar, Sophia Ananiadou
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.08045v2

摘要

arXiv:2502.08045v2 宣告类型: replace-cross 摘要:许多研究依赖于封闭式多项选择调查来评估大型语言模型(LLMs)的文化一致性。在这项工作中,我们挑战了这种受限的评估范式,并探索了更加现实且不受限制的方法。通过将世界价值观调查(WVS)和霍夫斯泰德文化维度作为案例研究,我们证明了在不强制响应的较少受限环境中,LLMs表现出更强的文化一致性。此外,我们展示了即使是微小的变化,如重新排列调查选项,也会导致输出不一致,这揭示了封闭式评估的局限性。我们的研究结果倡导更稳健和灵活的评估框架,重点关注特定的文化指标,鼓励对LLMs的文化一致性进行更加细致和准确的评估。