摘要
arXiv:2504.11239v1 宣布类型: 新
摘要: 推理是大型语言模型(LLMs)的基本能力。由于LLMs的快速进步,当前的基准存在两个主要问题:i) 这些基准可以在短时间内被破解(不到一年),ii) 这些基准可能被轻易破解。为了解决这些问题,我们提出了ever-scalingness,以构建无法破解、无法被破解、自动验证且通用的基准。本文介绍了Nondeterministic Polynomial-time Problem Challenge(NPPC),这是一种针对LLMs的ever-scaling推理基准。具体而言,NPPC有三个主要模块:i) npgym,提供一个统一接口,涵盖25个著名的NP完全问题,可以生成任意数量的具有不同复杂程度的实例,ii) npsolver:提供一个统一接口,通过API和本地部署分别评估线上和离线模型的问题实例,iii) npeval:提供全面且易于使用的工具,分析LLMs在不同问题、不同标记数量、Eureka时刻、推理错误和解决方案错误上的性能。广泛的实验表明:i) NPPC能够成功将先进LLMs的表现降低到10%以下,证明了NPPC是无法破解的,ii) DeepSeek-R1、Claude-3.7-Sonnet 和 o1/o3-mini 是最强大的LLMs,其中DeepSeek-R1在大多数考虑的NP完全问题上优于Claude-3.7-Sonnet和o1/o3-mini,iii) 对于先进LLMs,例如Claude-3.7-Sonnet和DeepSeek-R1,在问题实例变得越来越难的情况下,标记数量和Eureka时刻先增加后减少。我们认为NPPC是第一个ever-scaling推理基准,作为通往通用人工智能(AGI)的LLMs的无法破解和无法被破解的测试平台。