摘要
人类认知过程通常被分为两个系统:系统1,涉及快速、直觉的思维;系统2,涉及缓慢、深思熟虑的推理。此前,大型语言模型因缺乏系统2的更深层次、更具分析性的能力而受到批评。2024年9月,OpenAI推出了专门用于处理系统2式推理的O1模型系列。虽然OpenAI的基准测试结果令人鼓舞,但仍需要独立验证。在本研究中,我们对荷兰“数学B”期末考试对O1-预览模型进行了两次测试。它分别获得了76分中的76分和73分,接近满分。作为参考,在荷兰16414名学生中,只有24名学生取得了满分。相比之下,GPT-4o模型分别获得了76分中的66分和61分,远高于荷兰平均分40.63分。O1-预览模型大约在10分钟内完成了考试,而GPT-4o用了3分钟,并且两个模型都没有访问考试图表。虽然O1-预览模型有能力取得满分,但其性能表现出一定的变异性,因为它在反复提示时偶尔会犯错误。这表明,选择一致性输出的自一致性方法可以提高准确性。我们得出结论,虽然OpenAI的新模型系列具有巨大潜力,但必须考虑某些风险。