LLM2D

摘要

arXiv:2504.11239v1 宣布类型: 新摘要: 推理是大型语言模型（LLMs）的基本能力。由于LLMs的快速进步，当前的基准存在两个主要问题：i) 这些基准可以在短时间内被破解（不到一年），ii) 这些基准可能被轻易破解。为了解决这些问题，我们提出了ever-scalingness，以构建无法破解、无法被破解、自动验证且通用的基准。本文介绍了Nondeterministic Polynomial-time Problem Challenge（NPPC），这是一种针对LLMs的ever-scaling推理基准。具体而言，NPPC有三个主要模块：i) npgym，提供一个统一接口，涵盖25个著名的NP完全问题，可以生成任意数量的具有不同复杂程度的实例，ii) npsolver：提供一个统一接口，通过API和本地部署分别评估线上和离线模型的问题实例，iii) npeval：提供全面且易于使用的工具，分析LLMs在不同问题、不同标记数量、Eureka时刻、推理错误和解决方案错误上的性能。广泛的实验表明：i) NPPC能够成功将先进LLMs的表现降低到10%以下，证明了NPPC是无法破解的，ii) DeepSeek-R1、Claude-3.7-Sonnet 和 o1/o3-mini 是最强大的LLMs，其中DeepSeek-R1在大多数考虑的NP完全问题上优于Claude-3.7-Sonnet和o1/o3-mini，iii) 对于先进LLMs，例如Claude-3.7-Sonnet和DeepSeek-R1，在问题实例变得越来越难的情况下，标记数量和Eureka时刻先增加后减少。我们认为NPPC是第一个ever-scaling推理基准，作为通往通用人工智能（AGI）的LLMs的无法破解和无法被破解的测试平台。