LLM2D
使用传递性公理评估AI决策的理性xing
Benchmarking the rationality of AI decision making using the transitivity axiom
作者: Kiwon Song, James M. Jennings III, Clintin P. Davis-Stober
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10554v1

摘要

arXiv:2502.10554v1 宣布类型: 新 摘要: 基本的选择公理,如偏好传递性,为判断人类决策是否理性,即是否符合效用表示提供了可测试的条件。近期的研究表明,基于人类数据训练的AI系统可能会表现出与人类相似的推理偏差,并且AI系统可以通过AI推荐系统影响人类判断。我们通过一系列设计来评估人类偏好传递性的选择实验,来评估AI响应的合理性。我们考虑了Meta的十个版本的Llama 2和3个LLM模型。我们使用贝叶斯模型选择来评估这些由AI生成的选择是否违反了两个主要的传递性模型。我们发现,Llama 2和3模型通常满足传递性,但在模型出现违反传递性的情况时,仅出现在Chat/Instruct版本的LLM中。我们认为,如偏好传递性之类的合理性公理对于评估和基准测试AI生成响应的质量是很有用的,并为更广泛地理解AI系统中的计算合理性提供了基础。