摘要
arXiv:2503.16743v3 宣布类型: 替换
摘要: 我们介绍了一种基于算法概率原理的开放性测试,可以在评估前沿模型的强人工智能(AGI)和超级智能(ASI)声明时避免基准污染。与其他测试不同,该测试不依赖于统计压缩方法(如GZIP或LZW),这些方法更接近于香农熵而不是库尔莫哥洛夫复杂度,并且无法进行超越简单模式匹配的测试。该测试挑战与AI,特别是大型语言模型(LLM)相关的基础智能方面的能力,特别是在逆向问题(从观察中生成新知识)的背景下进行建模和合成。我们认为,基于模型抽象和推测(最优贝叶斯“推断”)的度量框架可以为测试智能提供稳健的框架,包括自然智能(人类和动物),窄人工智能,AGI和ASI。我们发现LLM模型版本往往是脆弱且增量的,结果表明,进步很可能是由训练数据量的大小驱动的。我们将结果与一种结合了神经符号方法进行了比较,该方法理论上基于算法概率和库尔莫哥洛夫复杂度的原则,保证了通用智能。该方法在短二进制序列上的概念验证中优于LLM。我们证明了压缩等同于系统预测能力,并且成正比。也就是说,如果一个系统能更好地预测,它就能更好地压缩,反之亦然。我们的发现加强了对LLM基本局限性的怀疑,揭示它们是优化为了掌握人类语言感知的系统。