LLM2D

摘要

arXiv:2503.16743v3 宣布类型: 替换摘要: 我们介绍了一种基于算法概率原理的开放性测试，可以在评估前沿模型的强人工智能(AGI)和超级智能(ASI)声明时避免基准污染。与其他测试不同，该测试不依赖于统计压缩方法（如GZIP或LZW），这些方法更接近于香农熵而不是库尔莫哥洛夫复杂度，并且无法进行超越简单模式匹配的测试。该测试挑战与AI，特别是大型语言模型（LLM）相关的基础智能方面的能力，特别是在逆向问题（从观察中生成新知识）的背景下进行建模和合成。我们认为，基于模型抽象和推测（最优贝叶斯“推断”）的度量框架可以为测试智能提供稳健的框架，包括自然智能（人类和动物），窄人工智能，AGI和ASI。我们发现LLM模型版本往往是脆弱且增量的，结果表明，进步很可能是由训练数据量的大小驱动的。我们将结果与一种结合了神经符号方法进行了比较，该方法理论上基于算法概率和库尔莫哥洛夫复杂度的原则，保证了通用智能。该方法在短二进制序列上的概念验证中优于LLM。我们证明了压缩等同于系统预测能力，并且成正比。也就是说，如果一个系统能更好地预测，它就能更好地压缩，反之亦然。我们的发现加强了对LLM基本局限性的怀疑，揭示它们是优化为了掌握人类语言感知的系统。