LLM2D

摘要

arXiv:2505.08049v1 宣告类型: 新增摘要: 近期研究表明，在两项伯努利奖品实验（TABB）任务中，人类行为可以用正性偏差和证实偏差来描述，这意味着人类在客观上并未整合新信息。然而，我们发现，即使代理是通过客观贝叶斯推断来更新其信念，使用非对称学习率适应标准的Q学习模型仍然能够恢复这两种偏差。将贝叶斯推断作为有效的Q学习算法，其学习率是对称的，尽管是递减的。我们通过使用主方程分析这些学习系统的随机动态来解释这一点。我们发现，证实偏差和无偏但递减的学习率都能产生相同的行为特征。最后，我们提出了一套实验方案，以区分真正的认知偏差和递减学习率引起的伪象。