摘要
arXiv:2503.11572v2 宣告类型: replace-cross
摘要:隐性偏差是指影响感知、判断和行为的自动化心智过程。之前关于LLM中的“隐性偏差”研究主要集中在输出上,而非输出背后的处理过程。我们提出了推理模型隐含关联测试(RM-IAT)来研究推理模型中的类似隐性偏差的处理过程,这些推理模型使用逐步推理来完成复杂任务。使用RM-IAT,我们发现o3-mini和DeepSeek R1在处理关联不兼容信息时需要更多的 token,这反映了人类隐性偏差的模式。相反,Claude 3.7 Sonnet在种族和性别测试中展现出相反的模式,在处理关联兼容信息时需要更多的 token。这种反转似乎与安全性机制的激活差异相关,在敏感情境中增加了仔细考虑。这些发现表明,AI系统可以表现出类似于人类隐性偏差及其修正机制的处理模式。