摘要
arXiv:2503.16743v2 声明类型: 替换
摘要: 我们引入了一种基于算法概率的开放性测试,可以在评估前沿模型在人工智能(AGI)和超人工智能(ASI)声明方面的量化评估时避免基准污染。与其它测试不同,这种测试不依赖于统计压缩方法(如GZIP或LZW),这些方法更接近于香农熵而非柯尔莫哥洛夫复杂性,并且无法进行超越简单模式匹配的测试。该测试挑战了与AI,特别是大型语言模型(LLM)相关的智力本质特征,如在逆问题(从观察中生成新知识)中进行合成和模型创建。我们argue认为,基于模型抽象和推论(最优贝叶斯“推理”)的度量,用于预测“规划”的框架,可以为测试智能提供稳健的框架,包括自然智能(人类和动物)、窄范AI、AGI和ASI。我们发现,LLM模型版本往往由于仅通过记忆变得脆弱且逐步改进,其进展很可能由训练数据量的大小驱动。结果与基于算法概率和柯尔莫哥洛夫复杂性的原理的混合神经符号方法进行比较。该方法在短二进制序列的概念验证测试中优于LLM。我们证明了压缩等同于系统预测能力,并且二者之间呈直接比例关系。也就是说,如果系统能够更好地预测,它就能更好地压缩;如果它能够更好地压缩,那么它就能更好地预测。我们的结果加强了对LLM基本局限性的怀疑,揭示了它们是优化人类语言控制感知的系统。