摘要
arXiv:2504.06303v1 类型: cross
摘要:理解并缓解偏差对于在高风险决策中采用大型语言模型(LLMs)至关重要。我们引入了涉及假设性申请人的录取和招聘决策任务,其中可以从申请人的姓名推断出其种族,作为衡量种族偏见的简化测试平台。我们展示了Gemma 2B Instruct和LLaMA 3.2 3B Instruct表现出强烈的偏见。Gemma对白人申请者的录取率比黑人高出26%,而LLaMA对亚洲申请者的招聘率比白人高出60%。我们证明这些偏见对提示工程具有抵抗力:多种提示策略都无法促进公平性。相比之下,使用分布式对齐搜索,我们可以在模型激活中识别出“种族子空间”,并对它们进行干预以减轻模型决策的偏见。在子空间内跨所有种族平均表示减少了Gemma的偏见37-57%。最后,我们考察了Gemma种族子空间的泛化能力,并发现有限的证据表明泛化能力,其中提示格式的变化可以影响种族表示。我们的工作表明,可以提供改进LLMs公平性的有希望的方法,但普遍的种族表示仍难以实现。