摘要
arXiv:2406.14023v2 通告类型: 替换交叉
摘要:随着大型语言模型(LLMs)成为信息访问的重要途径,人们越来越担心LLMs可能会加剧不道德内容的传播,包括对某些群体造成伤害的隐性偏见,即使没有明确的有害词汇。在本文中,我们通过从心理测量学视角攻击LLMs来严格评估其对某些人口统计学的隐性偏见,从而引出对偏见观点的认同。受到认知心理学和社会心理学心理测量原则的启发,我们提出了三种攻击方法,即伪装、欺骗和教学。结合相应的攻击指令,我们构建了两个基准:(1)一个多语言数据集,包含涵盖四种偏见类型(2700个实例)的带有偏见声明的数据集,用于广泛的比较分析;(2)BUMBLE,一个更大的基准,覆盖九种常见的偏见类型(12700个实例),用于全面评估。对流行的商业和开源LLMs进行广泛测试表明,我们的方法比竞争对手的基础方法更能有效引出LLMs的内在偏见。我们的攻击方法和基准为评估LLMs的伦理风险提供了有效手段,推动了其开发中更大责任的进步。