摘要
arXiv:2504.06160v3 宣告类型: replace-cross
摘要:大型语言模型(LLMs)已被证明对某些群体表现出不平衡的偏见。然而,LLMs 对高风险群体实施无端针对性攻击的研究仍然未被充分探索。我们的论文提出了三项新颖贡献:(1)明确评估 LLM 生成的针对高度脆弱心理健康群体的攻击;(2)一种基于网络的框架,用于研究相对偏见的传播;(3)对这些攻击中产生的相对程度污名化程度的评估。对一个最新发布的大型偏见审计数据集的分析揭示,心理健康实体在攻击叙述网络中占据了核心位置,这体现在显著更高的接近中心性平均值(p值 = 4.06e-10)和紧密聚类(基尼系数 = 0.7)。借助于污名化理论的社会学基础,我们的污名化分析表明,与生成链中的初始目标相比,针对与心理健康障碍相关目标的标签化成分增加了。综上所述,这些见解揭示了大型语言模型结构倾向加剧有害言论的倾向,并强调了需要适当的缓解方法。