摘要
生成式人工智能,尤其是大型语言模型(LLM),正被越来越多地使用,因此需要对其能力进行透明化。虽然先前的研究表明人类(Adams 等人,2021)和 OpenAI 的 GPT-3(Winter 等人,2023)存在加法偏差,但本研究通过比较人类和 GPT-4 在空间和语言任务中的问题解决能力,并对解决方案效率和任务指令的效价进行不同的变化,扩展了研究。四项预先注册的实验,参与者来自美国,共 588 人,GPT-4 迭代 680 次,结果显示 GPT-4 比人类更倾向于使用加法转换。当减法比加法效率更高时,人类参与者不太可能使用加法策略;而当加法和减法效率相等时,他们使用加法策略的可能性更高。GPT-4 表现出相反的行为,当减法效率更高时,它表现出强烈的加法偏差。在任务指令的效价方面,当被指示“改进”(正效价)而不是“编辑”(中性效价)时,GPT-4 使用加法策略的次数增加了。这些发现表明,人类问题解决中的偏差在 GPT-4 的输出中被放大,并且 LLM 的解决方案策略不同于人类基于效率的策略。这突出了 LLM 的不断发展的局限性,以及在现实世界应用中使用它们时需要谨慎的必要性。