LLM2D

摘要

人类认知过程通常被划分为两个系统：系统 1，涉及快速直观的思考；系统 2，涉及缓慢、慎重的推理。此前，大型语言模型因缺乏系统 2 的更深层次、更具分析性的能力而受到批评。2024 年 9 月，OpenAI 推出了 o1 模型系列，旨在处理类似系统 2 的推理。尽管 OpenAI 的基准测试结果令人鼓舞，但仍需要独立验证。在本研究中，我们对 o1-preview 模型进行了两次荷兰“数学 B”期末考试测试。该模型在 76 分中分别获得了接近满分的 76 分和 74 分。作为对比，荷兰只有 16,414 名学生中的 24 名取得了满分。相比之下，GPT-4o 模型在 76 分中分别获得了 66 分和 62 分，远高于荷兰平均得分 40.63 分。这两个模型都没有访问考试内容。由于存在模型污染的风险（即，o1-preview 和 GPT-4o 的知识截止日期是在考试发布在线之后），我们用一个新的数学 B 考试重复了这个过程，该考试是在截止日期之后发布的。结果再次表明 o1-preview 表现出色（第 97.8 百分位），这表明污染并非影响因素。我们还表明，o1-preview 的输出存在一定程度的差异，这意味着有时会存在“运气”（答案正确）或“坏运气”（输出偏离到错误的内容）。我们证明了一种自我一致性方法，即重复给出提示并选择最常见的答案，是一种识别正确答案的有用策略。结论是，虽然 OpenAI 的新模型系列具有巨大潜力，但也必须考虑某些风险。