LLM2D
探索兔子洞:生成性攻击叙事中的 emergent 偏见对心理健康群体的影响
Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups
作者: Rijul Magu, Arka Dutta, Sean Kim, Ashiqur R. KhudaBukhsh, Munmun De Choudhury
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06160v2

摘要

arXiv:2504.06160v2 宣告类型: replace-cross 摘要:大型语言模型(LLMs)已被证明对某些群体表现出不平衡的偏见。然而,LLMs 对于易受攻击群体的无端攻击的研究仍然被严重忽视。我们论文的三个新贡献为:(1)对高度脆弱的心理健康群体生成的攻击进行明确评估;(2)基于网络的方法来研究相对偏见的传播;以及(3)评估这些攻击中出现的相对污名化的程度。通过对最近发布的大型偏见审核数据集的分析发现,心理健康实体在攻击叙事网络中占据中心位置,这体现在紧密性中心性(p值 = 4.06e-10)和密集聚类(Gini系数 = 0.7)的显著更高均值中。基于污名化理论的社会学基础,我们对污名化的分析表明,与生成链中的初始目标相比,与心理障碍相关的靶标出现了更多的标签成分。总的来说,这些见解阐明了大型语言模型倾向于加剧有害言论的结构倾向,并突显了需要有效缓解方法的必要性。