LLM2D
关于竞赛表示在减轻高风险决策偏见方面有效性和泛化性的研究
On the Effectiveness and Generalization of Race Representations for Debiasing High-Stakes Decisions
作者: Dang Nguyen, Chenhao Tan
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06303v1

摘要

arXiv:2504.06303v1 类型: cross 摘要:理解并缓解偏差对于在高风险决策中采用大型语言模型(LLMs)至关重要。我们引入了涉及假设性申请人的录取和招聘决策任务,其中可以从申请人的姓名推断出其种族,作为衡量种族偏见的简化测试平台。我们展示了Gemma 2B Instruct和LLaMA 3.2 3B Instruct表现出强烈的偏见。Gemma对白人申请者的录取率比黑人高出26%,而LLaMA对亚洲申请者的招聘率比白人高出60%。我们证明这些偏见对提示工程具有抵抗力:多种提示策略都无法促进公平性。相比之下,使用分布式对齐搜索,我们可以在模型激活中识别出“种族子空间”,并对它们进行干预以减轻模型决策的偏见。在子空间内跨所有种族平均表示减少了Gemma的偏见37-57%。最后,我们考察了Gemma种族子空间的泛化能力,并发现有限的证据表明泛化能力,其中提示格式的变化可以影响种族表示。我们的工作表明,可以提供改进LLMs公平性的有希望的方法,但普遍的种族表示仍难以实现。