LLM2D

摘要

arXiv:2504.06160v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）已被证明对某些群体表现出不平衡的偏见。然而，LLMs 对高风险群体实施无端针对性攻击的研究仍然未被充分探索。我们的论文提出了三项新颖贡献：（1）明确评估 LLM 生成的针对高度脆弱心理健康群体的攻击；（2）一种基于网络的框架，用于研究相对偏见的传播；（3）对这些攻击中产生的相对程度污名化程度的评估。对一个最新发布的大型偏见审计数据集的分析揭示，心理健康实体在攻击叙述网络中占据了核心位置，这体现在显著更高的接近中心性平均值（p值 = 4.06e-10）和紧密聚类（基尼系数 = 0.7）。借助于污名化理论的社会学基础，我们的污名化分析表明，与生成链中的初始目标相比，针对与心理健康障碍相关目标的标签化成分增加了。综上所述，这些见解揭示了大型语言模型结构倾向加剧有害言论的倾向，并强调了需要适当的缓解方法。