摘要
arXiv:2504.05632v2 宣告类型: 替换-交叉
摘要:大规模生成语言模型的最新进展表明,推理能力可以显著提高模型在各种任务中的性能。然而,推理对模型减轻刻板印象反应能力的影响仍然很大程度上未被探索。在本文中,我们研究了模型的推理能力和公平性之间的关键关系,并询问改进的推理能力是否可以减轻有害的刻板印象反应,尤其是由于浅薄或不完善的推理引起的反应。我们对多个开源的大规模预训练语言模型进行了全面评估,并发现具有更强推理能力的更大模型在现有的公平性基准测试中表现出明显的较低刻板主义偏见。基于这一见解,我们提出了 ReGiFT——推理引导的微调,这是一种新颖的方法,通过从高级推理模型中提取结构化的推理痕迹,并将这些痕迹注入缺乏此类能力的模型中。我们仅使用通用推理,并不需要任何公平性特定的监督来减轻偏见。值得注意的是,我们发现使用 ReGiFT 微调的模型不仅在公平性方面优于其不具有推理能力的对应模型,还在公平性基准测试中表现更好。我们还分析了推理痕迹的正确性和长度的变化如何影响模型的公平性及其整体性能。我们的研究结果表明,增强推理能力是一种公平性无关的有效策略,可以减轻由推理缺陷引起的刻板印象偏见。