LLM2D

摘要

人类认知过程通常被分为两个系统：系统1，涉及快速、直觉的思维；系统2，涉及缓慢、深思熟虑的推理。此前，大型语言模型因缺乏系统2的更深层次、更具分析性的能力而受到批评。2024年9月，OpenAI推出了专门用于处理系统2式推理的O1模型系列。虽然OpenAI的基准测试结果令人鼓舞，但仍需要独立验证。在本研究中，我们对荷兰“数学B”期末考试对O1-预览模型进行了两次测试。它分别获得了76分中的76分和73分，接近满分。作为参考，在荷兰16414名学生中，只有24名学生取得了满分。相比之下，GPT-4o模型分别获得了76分中的66分和61分，远高于荷兰平均分40.63分。O1-预览模型大约在10分钟内完成了考试，而GPT-4o用了3分钟，并且两个模型都没有访问考试图表。虽然O1-预览模型有能力取得满分，但其性能表现出一定的变异性，因为它在反复提示时偶尔会犯错误。这表明，选择一致性输出的自一致性方法可以提高准确性。我们得出结论，虽然OpenAI的新模型系列具有巨大潜力，但必须考虑某些风险。