摘要
arXiv:2505.00603v1 声明类型: 新
摘要:本研究调查了大型语言模型,特别是GPT4,在战略决策情境中的类比推理能力是否能与人类相媲美。我们通过一种新颖的实验设计,即源到目标匹配,发现GPT4在检索所有可能的类比时实现了高召回率,但因频繁基于表面相似性应用不正确的类比而面临低精确率的问题。相比之下,人类参与者则表现出高精确率但低召回率的特点,虽然选择的类比较少,但因果对齐更为紧密。这些发现通过将类比推理的匹配阶段识别为一个独立的步骤,超越了简单的检索,以准确的因果映射推动了理论的发展。尽管当前的LLM在生成候选类比方面表现出色,但人类在识别跨领域的深层次结构相似性方面仍具有比较优势。错误分析表明,AI错误源于表面匹配,而人类错误则源于因果结构的误解。综上所述,结果表明在AI辅助组织决策中,可以实现一项有益的分工,其中LLM可以作为广泛类比生成器,而人类则作为关键评估者,将最符合上下文的类比应用到战略问题中。