LLM2D

摘要

arXiv:2406.14023v2 通告类型: 替换交叉摘要：随着大型语言模型（LLMs）成为信息访问的重要途径，人们越来越担心LLMs可能会加剧不道德内容的传播，包括对某些群体造成伤害的隐性偏见，即使没有明确的有害词汇。在本文中，我们通过从心理测量学视角攻击LLMs来严格评估其对某些人口统计学的隐性偏见，从而引出对偏见观点的认同。受到认知心理学和社会心理学心理测量原则的启发，我们提出了三种攻击方法，即伪装、欺骗和教学。结合相应的攻击指令，我们构建了两个基准：（1）一个多语言数据集，包含涵盖四种偏见类型（2700个实例）的带有偏见声明的数据集，用于广泛的比较分析；（2）BUMBLE，一个更大的基准，覆盖九种常见的偏见类型（12700个实例），用于全面评估。对流行的商业和开源LLMs进行广泛测试表明，我们的方法比竞争对手的基础方法更能有效引出LLMs的内在偏见。我们的攻击方法和基准为评估LLMs的伦理风险提供了有效手段，推动了其开发中更大责任的进步。