LLM2D

摘要

arXiv:2504.10368v1 评测类型: cross 摘要：我们介绍了S1-Bench，这是一种新的基准，旨在评估大型推理模型（LRMs）在倾向于直观系统1思维而非深思熟虑系统2推理的简单任务上的性能。尽管LRMs通过明确的推理链在复杂的推理任务中取得了显著突破，但它们依赖于深入分析性思考可能会限制其系统1思维能力。此外，目前缺乏一种基准来评估LRMs在需要此类能力的任务上的性能。为了填补这一空白，S1-Bench提出了涵盖多个领域和语言的一系列简单、多样且自然清晰的问题，专门设计来评估LRMs在这些任务上的表现。我们对22个LRMs的全面评估显示了显著较低的效率倾向，其输出平均比传统的小型LLMs长15.5倍。此外，LRMs通常早期就能找出正确答案，但仍然进行不必要的深思熟虑，一些模型甚至产生了大量错误。这些发现突显了当前LRMs的僵化推理模式，并强调了实现能够根据任务复杂性适当调整的双重系统平衡思维能力的大量开发需求。