LLM2D
OpenAI 的 o1-preview 模型中的系统 2 思维:数学考试中的近乎完美表现
System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam
作者: Joost de Winter, Dimitra Dodou, Yke Bauke Eisma
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.07114v1

摘要

人类认知过程通常被分为两个系统:系统1,涉及快速、直觉的思维;系统2,涉及缓慢、深思熟虑的推理。此前,大型语言模型因缺乏系统2的更深层次、更具分析性的能力而受到批评。2024年9月,OpenAI推出了专门用于处理系统2式推理的O1模型系列。虽然OpenAI的基准测试结果令人鼓舞,但仍需要独立验证。在本研究中,我们对荷兰“数学B”期末考试对O1-预览模型进行了两次测试。它分别获得了76分中的76分和73分,接近满分。作为参考,在荷兰16414名学生中,只有24名学生取得了满分。相比之下,GPT-4o模型分别获得了76分中的66分和61分,远高于荷兰平均分40.63分。O1-预览模型大约在10分钟内完成了考试,而GPT-4o用了3分钟,并且两个模型都没有访问考试图表。虽然O1-预览模型有能力取得满分,但其性能表现出一定的变异性,因为它在反复提示时偶尔会犯错误。这表明,选择一致性输出的自一致性方法可以提高准确性。我们得出结论,虽然OpenAI的新模型系列具有巨大潜力,但必须考虑某些风险。