LLM2D

摘要

生成式人工智能，尤其是大型语言模型（LLM），正被越来越多地使用，因此需要对其能力进行透明化。虽然先前的研究表明人类（Adams 等人，2021）和 OpenAI 的 GPT-3（Winter 等人，2023）存在加法偏差，但本研究通过比较人类和 GPT-4 在空间和语言任务中的问题解决能力，并对解决方案效率和任务指令的效价进行不同的变化，扩展了研究。四项预先注册的实验，参与者来自美国，共 588 人，GPT-4 迭代 680 次，结果显示 GPT-4 比人类更倾向于使用加法转换。当减法比加法效率更高时，人类参与者不太可能使用加法策略；而当加法和减法效率相等时，他们使用加法策略的可能性更高。GPT-4 表现出相反的行为，当减法效率更高时，它表现出强烈的加法偏差。在任务指令的效价方面，当被指示“改进”（正效价）而不是“编辑”（中性效价）时，GPT-4 使用加法策略的次数增加了。这些发现表明，人类问题解决中的偏差在 GPT-4 的输出中被放大，并且 LLM 的解决方案策略不同于人类基于效率的策略。这突出了 LLM 的不断发展的局限性，以及在现实世界应用中使用它们时需要谨慎的必要性。