LLM2D
AGITB:评估人工通用智能的信号级基准
AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence
作者: Matej \v{S}progar
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2504.04430v3

摘要

arXiv:2504.04430v3 通告类型: 修改 摘要:尽管在机器学习方面取得了显著进步,当前的AI系统依然未能达到真正的类人智能。虽然大型语言模型(LLMs)在模式识别和响应生成方面表现出色,但在真正的理解能力方面却有所欠缺——这是人工通用智能(AGI)的关键标志之一。现有的AGI评估方法未能提供一个实用、渐进且信息丰富的度量标准。本文引入了人工通用智能测试床(AGITB),包含十二项严格的测试,构成了评估认知能力的信号处理基础。AGITB通过模型在时间上预测二进制信号的能力进行评估,而不依赖于符号表示或预训练。与扎根于语言或感知的高级测试不同,AGITB侧重于反映生物智能的核心计算不变量,如确定性、敏感性和泛化能力。测试床假定没有先验偏见,独立于语义意义,并通过暴力破解或记忆确保无法解决。虽然人类通过设计可以达到AGITB,但当前的任何AI系统都未能满足其标准,使AGITB成为指导和识别通向AGI进展的重要基准。