LLM2D
语言代理镜像人类因果推理偏见。我们如何帮助它们像科学家一样思考?
Language Agents Mirror Human Causal Reasoning Biases. How Can We Help Them Think Like Scientists?
作者: Anthony GX-Chen, Dongyan Lin, Mandana Samiei, Doina Precup, Blake A. Richards, Rob Fergus, Kenneth Marino
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09614v1

摘要

arXiv:2505.09614v1 宣告类型: 新 摘要: 语言模型(LM)代理越来越多地被用作自主决策者,需要积极收集信息以指导其决策。对于这类代理来说,高效地探索和理解世界因果结构的关键认知技能至关重要——这对于稳健且科学依据充分的推理非常重要。然而,目前仍不清楚语言模型是否具备这种能力,还是表现出系统性的偏差导致错误的结论。在此项研究中,我们通过使用发展心理学中广泛认可的“Blicket 测试”范式来探讨语言模型探索和推断因果关系的能力。我们发现,语言模型可靠地推断出了常见的直观的析取因果关系,但系统性地在不寻常的,尽管是同样甚至更为有证据支持的合取因果关系上遇到了困难。这种“析取偏向”在各种模型家族、大小和提示策略中持续存在,并且随着任务复杂性的增加,性能进一步下降。令人感兴趣的是,类似的偏向在成年人类中也出现了,这表明语言模型可能继承了从训练数据中获得的深层次的推理启发式。因此,我们量化了语言模型与人类之间的相似性,发现语言模型表现出类似成年人的推断模式(而不是儿童模式)。最后,我们提出了一种测试时采样方法,该方法明确地从语言模型中采样并消除关于因果关系的假设。这种可扩展的方法显著减少了析取偏向,使语言模型更接近科学的、因果严谨的推理目标。