LLM2D

摘要

本文探究了大型语言模型 (LLMs) 中存在的微妙且往往隐藏的偏见，重点关注即使通过显式偏见测试也可能存在的隐式偏见。隐式偏见很重要，因为它们会影响这些系统做出的决策，可能导致对刻板印象和歧视的延续，即使 LLMs 表现出公平性。传统上，使用显式偏见测试或基于嵌入的方法来检测偏见，但这些方法可能忽略了更细微、隐式的偏见形式。为了解决这个问题，我们引入了两种新的受心理学启发的 методология：LLM 隐式联想测试 (IAT) 偏见和 LLM 决策偏见，旨在通过基于提示的任务和决策任务来揭示和衡量隐式偏见。此外，具有主题分析的开放式生成任务，包括词语生成和故事讲述，提供了对模型行为的定性见解。我们的研究结果表明，LLM IAT 偏见与传统方法相关联，并更有效地预测下游行为，如 LLM 决策偏见所衡量，为检测 AI 系统中的微妙偏见提供了一个更全面的框架。这项研究通过提出新的方法来持续评估和减轻 LLMs 中的偏见，推动了 AI 伦理领域的发展，强调了定性和以决策为重点的评估的重要性，以解决先前方法尚未完全解决的挑战。