LLM2D

摘要

arXiv:2505.00603v1 声明类型: 新摘要：本研究调查了大型语言模型，特别是GPT4，在战略决策情境中的类比推理能力是否能与人类相媲美。我们通过一种新颖的实验设计，即源到目标匹配，发现GPT4在检索所有可能的类比时实现了高召回率，但因频繁基于表面相似性应用不正确的类比而面临低精确率的问题。相比之下，人类参与者则表现出高精确率但低召回率的特点，虽然选择的类比较少，但因果对齐更为紧密。这些发现通过将类比推理的匹配阶段识别为一个独立的步骤，超越了简单的检索，以准确的因果映射推动了理论的发展。尽管当前的LLM在生成候选类比方面表现出色，但人类在识别跨领域的深层次结构相似性方面仍具有比较优势。错误分析表明，AI错误源于表面匹配，而人类错误则源于因果结构的误解。综上所述，结果表明在AI辅助组织决策中，可以实现一项有益的分工，其中LLM可以作为广泛类比生成器，而人类则作为关键评估者，将最符合上下文的类比应用到战略问题中。