LLM2D

摘要

认知偏差是思维中的系统性偏差，会导致非理性判断和问题决策，在各个领域都得到了广泛的研究。近年来，大型语言模型（LLM）展现出了先进的理解能力，但它们可能会从训练数据中继承人类的偏差。尽管LLM的社会偏差已得到充分研究，但认知偏差却受到的关注较少，现有的研究集中在特定场景上。认知偏差对LLM在各种决策情境中的更广泛影响尚未得到充分探索。我们研究了LLM是否受相关性判断中的阈值启动效应的影响，这是一个核心任务，也是信息检索（IR）社区中广泛讨论的研究主题。启动效应是指暴露于某些刺激会无意识地影响随后的行为和决策。我们的实验使用了来自TREC 2019深度学习段落跟踪集合的10个主题，并在不同的文档相关性分数、批次长度和LLM模型（包括GPT-3.5、GPT-4、LLaMa2-13B和LLaMa2-70B）下测试了AI判断。结果表明，LLM倾向于对后面的文档给出更低的分数，如果前面的文档具有高度相关性，反之亦然，无论使用何种组合和模型。我们的发现表明，LLM的判断与人类判断类似，也受到阈值启动偏差的影响，并表明研究人员和系统工程师在设计、评估和审计IR任务及其他领域的LLM时，应考虑潜在的人类认知偏差。