LLM2D

摘要

arXiv:2503.11572v2 宣告类型: replace-cross 摘要：隐性偏差是指影响感知、判断和行为的自动化心智过程。之前关于LLM中的“隐性偏差”研究主要集中在输出上，而非输出背后的处理过程。我们提出了推理模型隐含关联测试（RM-IAT）来研究推理模型中的类似隐性偏差的处理过程，这些推理模型使用逐步推理来完成复杂任务。使用RM-IAT，我们发现o3-mini和DeepSeek R1在处理关联不兼容信息时需要更多的 token，这反映了人类隐性偏差的模式。相反，Claude 3.7 Sonnet在种族和性别测试中展现出相反的模式，在处理关联兼容信息时需要更多的 token。这种反转似乎与安全性机制的激活差异相关，在敏感情境中增加了仔细考虑。这些发现表明，AI系统可以表现出类似于人类隐性偏差及其修正机制的处理模式。