摘要
认知偏差是思维中的系统性偏差,会导致非理性判断和问题决策,在各个领域都得到了广泛的研究。近年来,大型语言模型(LLM)展现出了先进的理解能力,但它们可能会从训练数据中继承人类的偏差。尽管LLM的社会偏差已得到充分研究,但认知偏差却受到的关注较少,现有的研究集中在特定场景上。认知偏差对LLM在各种决策情境中的更广泛影响尚未得到充分探索。我们研究了LLM是否受相关性判断中的阈值启动效应的影响,这是一个核心任务,也是信息检索(IR)社区中广泛讨论的研究主题。启动效应是指暴露于某些刺激会无意识地影响随后的行为和决策。我们的实验使用了来自TREC 2019深度学习段落跟踪集合的10个主题,并在不同的文档相关性分数、批次长度和LLM模型(包括GPT-3.5、GPT-4、LLaMa2-13B和LLaMa2-70B)下测试了AI判断。结果表明,LLM倾向于对后面的文档给出更低的分数,如果前面的文档具有高度相关性,反之亦然,无论使用何种组合和模型。我们的发现表明,LLM的判断与人类判断类似,也受到阈值启动偏差的影响,并表明研究人员和系统工程师在设计、评估和审计IR任务及其他领域的LLM时,应考虑潜在的人类认知偏差。