LLM2D

摘要

大型语言模型（LLMs）作为支持越来越广泛的决策任务的工具，具有巨大的潜力。鉴于它们在人类（创建）数据上的训练，LLMs 已被证明会继承针对受保护群体的社会偏见，并且会受到类似于认知偏见的偏见的影响。类似人类的偏见会阻碍使用 LLM 辅助做出的公平且可解释的决策。我们的工作介绍了 BiasBuster，这是一个旨在揭示、评估和减轻 LLM 中认知偏见的框架，尤其是在高风险决策任务中。受心理学和认知科学先前研究的启发，我们开发了一个包含 13,465 个提示的数据集，以评估 LLM 在不同认知偏见（例如，提示诱导、顺序、固有）上的决策。我们测试了各种偏见缓解策略，同时提出了一种利用 LLM 来消除提示中自身类似人类的认知偏见的新方法。我们的分析全面概述了商业和开源模型中认知偏见的存在和影响。我们证明了我们的自助消除偏见方法有效地减轻了模型答案中表现出类似人类认知偏见模式的现象，而无需为每种偏见手动制作示例。