LLM2D
人类更 Bayesian 还是 ChatGPT 更 Bayesian?
Who is More Bayesian: Humans or ChatGPT?
作者: Tianshi Mu, Pranjal Rawat, John Rust, Chengjun Zhang, Qixuan Zhong
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10636v1

摘要

arXiv:2504.10636v1 交叉公告类型: cross 摘要: 我们在简单的二元分类任务中比较了人类和人工智能(AI)决策者的表现,这些任务的最佳决策规则由贝叶斯规则给出。我们重新分析了从El-Gamal和Grether以及Holt和Smith进行的实验室实验中收集的人类被试的选择。我们确认,尽管总体而言,贝叶斯规则是预测人类选择的最佳单一模型,但被试存在异质性,并且其中相当一部分人在决策时做出了次优选择,这些选择反映了Kahneman和Tversky所描述的判断偏差,包括“代表性启发法”(相对于先验而言,过度重视样本证据)和“保守性”(相对于样本而言,过度重视先验)。我们比较了来自最近版本的大语言模型(LLMs)的AI被试性能,其中包括多个版本的ChatGPT。这些通用生成式AI聊天机器人不是专门训练以在狭窄的决策任务中表现良好,而是通过网络上的大量文本数据训练作为“语言预测器”。我们展示了ChatGPT也会受到导致次优决策的偏差影响。然而,我们记录了ChatGPT在性能上的迅速演变,从早期版本(ChatGPT 3.5)的低于人类的性能,到最新版本(ChatGPT 4)几乎是完美的贝叶斯分类。