LLM2D
OpenAI 的 o1-preview 模型中的系统 2 思维:在数学考试中取得近乎完美的成绩
System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam
作者: Joost de Winter, Dimitra Dodou, Yke Bauke Eisma
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.07114v3

摘要

人类认知过程通常被划分为两个系统:系统 1,涉及快速直观的思考;系统 2,涉及缓慢、慎重的推理。此前,大型语言模型因缺乏系统 2 的更深层次、更具分析性的能力而受到批评。2024 年 9 月,OpenAI 推出了 o1 模型系列,旨在处理类似系统 2 的推理。尽管 OpenAI 的基准测试结果令人鼓舞,但仍需要独立验证。在本研究中,我们对 o1-preview 模型进行了两次荷兰“数学 B”期末考试测试。该模型在 76 分中分别获得了接近满分的 76 分和 74 分。作为对比,荷兰只有 16,414 名学生中的 24 名取得了满分。相比之下,GPT-4o 模型在 76 分中分别获得了 66 分和 62 分,远高于荷兰平均得分 40.63 分。这两个模型都没有访问考试内容。由于存在模型污染的风险(即,o1-preview 和 GPT-4o 的知识截止日期是在考试发布在线之后),我们用一个新的数学 B 考试重复了这个过程,该考试是在截止日期之后发布的。结果再次表明 o1-preview 表现出色(第 97.8 百分位),这表明污染并非影响因素。我们还表明,o1-preview 的输出存在一定程度的差异,这意味着有时会存在“运气”(答案正确)或“坏运气”(输出偏离到错误的内容)。我们证明了一种自我一致性方法,即重复给出提示并选择最常见的答案,是一种识别正确答案的有用策略。结论是,虽然 OpenAI 的新模型系列具有巨大潜力,但也必须考虑某些风险。