LLM2D

摘要

arXiv:2504.06160v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）已被证明对某些群体表现出不平衡的偏见。然而，LLMs 对于易受攻击群体的无端攻击的研究仍然被严重忽视。我们论文的三个新贡献为：（1）对高度脆弱的心理健康群体生成的攻击进行明确评估；（2）基于网络的方法来研究相对偏见的传播；以及（3）评估这些攻击中出现的相对污名化的程度。通过对最近发布的大型偏见审核数据集的分析发现，心理健康实体在攻击叙事网络中占据中心位置，这体现在紧密性中心性（p值 = 4.06e-10）和密集聚类（Gini系数 = 0.7）的显著更高均值中。基于污名化理论的社会学基础，我们对污名化的分析表明，与生成链中的初始目标相比，与心理障碍相关的靶标出现了更多的标签成分。总的来说，这些见解阐明了大型语言模型倾向于加剧有害言论的结构倾向，并突显了需要有效缓解方法的必要性。