LLM2D

摘要

认知偏差是思维中导致非理性判断和问题决策的系统性偏差，已在各个领域得到广泛研究。最近，大型语言模型 (LLM) 表现出先进的理解能力，但可能会从训练数据中继承人类偏差。虽然 LLMs 中的社会偏差已得到充分研究，但认知偏差却受到较少关注，现有研究集中在特定场景。认知偏差对 LLMs 在各种决策环境中的更广泛影响仍未得到充分探索。我们调查了 LLMs 是否受相关性判断中的阈值启动效应的影响，这是信息检索 (IR) 社区中的核心任务和广泛讨论的研究课题。启动效应是指接触某些刺激会无意识地影响随后的行为和决策。我们的实验使用了来自 TREC 2019 深度学习段落追踪集合的 10 个主题，并在不同的文档相关性分数、批处理长度和 LLM 模型（包括 GPT-3.5、GPT-4、LLaMa2-13B 和 LLaMa2-70B）下测试了 AI 判断。结果表明，无论使用何种组合和模型，如果较早的文档具有较高的相关性，LLMs 往往会给后面的文档打更低的分数，反之亦然。我们的发现表明，与人类判断类似，LLM 的判断也受到阈值启动偏差的影响，并建议研究人员和系统工程师在设计、评估和审核 IR 任务及其他任务中的 LLMs 时，应考虑潜在的人类认知偏差。