LLM2D

摘要

arXiv:2504.06303v1 类型: cross 摘要：理解并缓解偏差对于在高风险决策中采用大型语言模型（LLMs）至关重要。我们引入了涉及假设性申请人的录取和招聘决策任务，其中可以从申请人的姓名推断出其种族，作为衡量种族偏见的简化测试平台。我们展示了Gemma 2B Instruct和LLaMA 3.2 3B Instruct表现出强烈的偏见。Gemma对白人申请者的录取率比黑人高出26%，而LLaMA对亚洲申请者的招聘率比白人高出60%。我们证明这些偏见对提示工程具有抵抗力：多种提示策略都无法促进公平性。相比之下，使用分布式对齐搜索，我们可以在模型激活中识别出“种族子空间”，并对它们进行干预以减轻模型决策的偏见。在子空间内跨所有种族平均表示减少了Gemma的偏见37-57%。最后，我们考察了Gemma种族子空间的泛化能力，并发现有限的证据表明泛化能力，其中提示格式的变化可以影响种族表示。我们的工作表明，可以提供改进LLMs公平性的有希望的方法，但普遍的种族表示仍难以实现。