摘要
arXiv:2504.07887v1 交叉领域宣布类型:跨学科
摘要:大规模语言模型(LLMs)已经彻底革新了人工智能,推动了机器翻译、总结和对话代理的进步。然而,它们越来越多地融入关键的社会领域引发了关于嵌入式偏见的担忧,这些偏见可以延续刻板印象并损害公平性。这些偏见源于多种来源,包括训练数据中的历史不平等、语言失衡以及 adversarial 操纵。尽管采取了缓解措施,但最近的研究表明,LLMs 仍然容易受到旨在诱发偏见响应的 adversarial 攻击。本文提出了一种可扩展的基准评估框架,以评估 LLMs 对 adversarial 偏见诱发的鲁棒性。我们的方法包括:(i)使用多任务方法系统性地探测模型,针对各种社会文化维度上的偏见;(ii)通过使用 LLM 作为裁判的方法,自动评估模型响应的安全得分,量化鲁棒性;(iii)采用 jailbreak 技术调查安全机制中的漏洞。我们的分析检查了大小不等的最新模型中普遍存在的偏见以及这些偏见对模型安全的影响。此外,我们还评估了针对关键领域如医学进行微调的领域特定模型的安全性。最后,我们发布了一组精选的偏见相关提示数据集,CLEAR-Bias,以促进系统的漏洞基准评估。我们的研究结果揭示了模型大小与安全性之间的关键权衡,有助于开发更加公平和稳健的未来语言模型。