LLM2D

摘要

arXiv:2504.04430v1 宣告类型: 新摘要: 尽管在机器学习方面取得了显著进展，但当前的AI系统仍然无法达到真正的人类智能水平。虽然大型语言模型（LLMs）在模式识别和响应生成方面表现出色，但它们缺乏真正的理解能力，这是人工通用智能（AGI）的一个重要因素。现有的AGI评估方法未能提供一种实际、渐进和信息性的度量标准。本文介绍了人工通用智能测试床（AGITB），它包含十二个严格的测试，这些测试构成了认知能力潜在出现的信号处理级基础。AGITB通过对模型在时间上预测二进制信号的能力进行评估，而不依赖于符号表示或预训练。与基于语言或感知的高级测试不同，AGITB侧重于反映生物智能的核心计算不变量，如确定性、敏感性和泛化。测试床假设没有先验偏见，独立于语义意义，并通过暴力破解或记忆确保不可解。设计上，人类可以通过AGITB，但目前没有任何一个AI系统能够满足其标准，使AGITB成为指导和识别向AGI迈进的过程的有力基准。