摘要
认知偏差是思维中导致非理性判断和问题决策的系统性偏差,已在各个领域得到广泛研究。最近,大型语言模型 (LLM) 表现出先进的理解能力,但可能会从训练数据中继承人类偏差。虽然 LLMs 中的社会偏差已得到充分研究,但认知偏差却受到较少关注,现有研究集中在特定场景。认知偏差对 LLMs 在各种决策环境中的更广泛影响仍未得到充分探索。我们调查了 LLMs 是否受相关性判断中的阈值启动效应的影响,这是信息检索 (IR) 社区中的核心任务和广泛讨论的研究课题。启动效应是指接触某些刺激会无意识地影响随后的行为和决策。我们的实验使用了来自 TREC 2019 深度学习段落追踪集合的 10 个主题,并在不同的文档相关性分数、批处理长度和 LLM 模型(包括 GPT-3.5、GPT-4、LLaMa2-13B 和 LLaMa2-70B)下测试了 AI 判断。结果表明,无论使用何种组合和模型,如果较早的文档具有较高的相关性,LLMs 往往会给后面的文档打更低的分数,反之亦然。我们的发现表明,与人类判断类似,LLM 的判断也受到阈值启动偏差的影响,并建议研究人员和系统工程师在设计、评估和审核 IR 任务及其他任务中的 LLMs 时,应考虑潜在的人类认知偏差。