摘要
arXiv:2504.05632v1 类型:交叉
摘要:近年来,在大规模生成语言模型方面的进展表明,推理能力可以显著提升模型在各种任务中的性能。然而,推理对模型减轻刻板反应能力的影响仍然很大程度上未被探索。在这项工作中,我们探讨了模型的推理能力与其公平性之间的关键关系,并询问是否可以通过改进推理能力来减轻有害的刻板反应,尤其是由于浅薄或有缺陷的推理产生的刻板反应。我们对多个开源的LLM进行了全面评估,并发现具有更强推理能力的较大模型在现有公平性基准上的刻板偏见显著较低。基于这一见解,我们引入了ReGiFT——基于推理的微调方法,这是一种新颖的方法,可以从高级推理模型中提取结构化的推理踪迹,并将其注入缺乏此类能力的模型中。我们仅使用通用推理,并不需要任何特定公平性的监督来减轻偏见。值得注意的是,我们发现使用ReGiFT微调的模型不仅相对于没有推理能力的同类模型提高了公平性,还在公平性基准上的表现也优于高级推理模型。我们还分析了推理踪迹的正确性和长度的变化如何影响模型的公平性和整体性能。我们的研究结果强调,提高推理能力是一种无偏见的策略,可以有效减轻由于推理缺陷引起的刻板偏见。