摘要
arXiv:2502.10215v1 宣告类型: 新
摘要: 因果推理是智能的核心组成部分。大规模语言模型(LLMs)展示了生成类人类文本的令人印象深刻的能力,这引发了关于它们的回应是反映真正的理解还是统计模式的问题。我们使用基于碰撞图的任务比较了人类和四个人工智能语言模型的因果推理能力,根据其他变量的证据评估一个查询变量发生的可能性。我们发现,人工智能语言模型在从类人类到规范性推理的谱系上进行因果推理,其对齐会根据模型、上下文和任务有所不同。总体而言,GPT-4o 和 Claude 行为最符合规范性,包括“解释掉”,而 Gemini-Pro 和 GPT-3.5 未能做到这一点。尽管所有代理都偏离了因果因素的预期独立性——Claude 偏离最少——但在评估结果发生的可能性时,它们仍然展示了强烈的相关推理和预测性推理。这些发现强调了在人工智能日益协助人类决策过程中评估其偏见的重要性。