LLM2D

摘要

arXiv:2504.04430v2 宣告类型：替换摘要：尽管在机器学习方面取得了显著进展，但当前的人工智能系统仍然无法达到真正的人类智能水平。虽然大型语言模型（LLMs）在模式识别和响应生成方面表现出色，但它们缺乏真正的理解——这是人工智能通用智能（AGI）的一个重要特征。现有的AGI评估方法未能提供一个实用、渐进和信息丰富的度量标准。本文引入了人工智能通用智能测试床（AGITB），包含十二项严格的测试，形成了认知能力潜在出现的信号处理级基础。AGITB 通过模型在时间上预测二元信号的能力来评估智能，而不依赖于象征性表示或预训练。与基于语言或感知的高层次测试不同，AGITB 专注于生物智能的核心计算不变量，如确定性、敏感性和概括性。测试床假定无先偏见，独立于语义意义，并通过穷举或记忆确保不可解。虽然人类设计上通过了AGITB，但目前没有人工智能系统能够满足其标准，使AGITB 成为指导和识别通向AGI 进步的有力基准。