LLM2D

摘要

arXiv:2504.10636v1 交叉公告类型: cross 摘要: 我们在简单的二元分类任务中比较了人类和人工智能（AI）决策者的表现，这些任务的最佳决策规则由贝叶斯规则给出。我们重新分析了从El-Gamal和Grether以及Holt和Smith进行的实验室实验中收集的人类被试的选择。我们确认，尽管总体而言，贝叶斯规则是预测人类选择的最佳单一模型，但被试存在异质性，并且其中相当一部分人在决策时做出了次优选择，这些选择反映了Kahneman和Tversky所描述的判断偏差，包括“代表性启发法”（相对于先验而言，过度重视样本证据）和“保守性”（相对于样本而言，过度重视先验）。我们比较了来自最近版本的大语言模型（LLMs）的AI被试性能，其中包括多个版本的ChatGPT。这些通用生成式AI聊天机器人不是专门训练以在狭窄的决策任务中表现良好，而是通过网络上的大量文本数据训练作为“语言预测器”。我们展示了ChatGPT也会受到导致次优决策的偏差影响。然而，我们记录了ChatGPT在性能上的迅速演变，从早期版本（ChatGPT 3.5）的低于人类的性能，到最新版本（ChatGPT 4）几乎是完美的贝叶斯分类。