LLM2D
非确定性多项式时间问题挑战:一个不断扩展的推理基准 for LLMs
Nondeterministic Polynomial-time Problem Challenge: An Ever-Scaling Reasoning Benchmark for LLMs
作者: Chang Yang, Ruiyu Wang, Junzhe Jiang, Qi Jiang, Qinggang Zhang, Yanchen Deng, Shuxin Li, Shuyue Hu, Bo Li, Florian T. Pokorny, Xiao Huang, Xinrun Wang
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11239v1

摘要

arXiv:2504.11239v1 宣布类型: 新 摘要: 推理是大型语言模型(LLMs)的基本能力。由于LLMs的快速进步,当前的基准存在两个主要问题:i) 这些基准可以在短时间内被破解(不到一年),ii) 这些基准可能被轻易破解。为了解决这些问题,我们提出了ever-scalingness,以构建无法破解、无法被破解、自动验证且通用的基准。本文介绍了Nondeterministic Polynomial-time Problem Challenge(NPPC),这是一种针对LLMs的ever-scaling推理基准。具体而言,NPPC有三个主要模块:i) npgym,提供一个统一接口,涵盖25个著名的NP完全问题,可以生成任意数量的具有不同复杂程度的实例,ii) npsolver:提供一个统一接口,通过API和本地部署分别评估线上和离线模型的问题实例,iii) npeval:提供全面且易于使用的工具,分析LLMs在不同问题、不同标记数量、Eureka时刻、推理错误和解决方案错误上的性能。广泛的实验表明:i) NPPC能够成功将先进LLMs的表现降低到10%以下,证明了NPPC是无法破解的,ii) DeepSeek-R1、Claude-3.7-Sonnet 和 o1/o3-mini 是最强大的LLMs,其中DeepSeek-R1在大多数考虑的NP完全问题上优于Claude-3.7-Sonnet和o1/o3-mini,iii) 对于先进LLMs,例如Claude-3.7-Sonnet和DeepSeek-R1,在问题实例变得越来越难的情况下,标记数量和Eureka时刻先增加后减少。我们认为NPPC是第一个ever-scaling推理基准,作为通往通用人工智能(AGI)的LLMs的无法破解和无法被破解的测试平台。