LLM2D

摘要

arXiv:2504.11431v1 Announce Type: cross 摘要：男性默认是一种广泛认可的性别偏见形式，但由于研究不足而往往未被注意。男性默认包括三个关键部分：（i）文化背景，（ii）男性特征或行为，以及（iii）对这些男性特征或行为的奖励，或者仅仅是对其的接受。在本文中，我们研究基于话语的男性默认，并提出了一种双管齐下的框架：（i）通过我们的性别话语相关性框架（GDCF）大规模发现和分析口头内容中的性别化话语词汇；（ii）通过我们的话语词汇嵌入关联测试（D-WEAT）测量这些性别化话语词汇在LLM中的性别偏见程度。我们重点研究了播客这种流行且不断增长的社交媒体形式，分析了15,117集播客片段。我们通过LDA和BERTopic分析性别和话语词汇之间的相关性，自动形成性别化话语词汇列表。然后，我们研究这些性别化话语词汇在特定领域的频次，并发现在商业、技术和政治以及电子游戏等领域存在基于话语的男性默认。接下来，我们从OpenAI的先进LLM嵌入模型中研究这些性别化话语词汇的表现，发现男性话语词汇比女性话语词汇有更稳定和可靠的表示，这可能导致先进的语言模型在后续任务上对男性有更好的系统性能。因此，男性通过先进的语言模型表现出更好的话语模式获得更好的系统性能——这种嵌入差异是一种表示伤害，并且是男性默认。