LLM2D

摘要

arXiv:2503.06551v3 宣告类型: 修订摘要：本文批评了Restrepo Echavarría (2025) 近期发表的论文 "ChatGPT-4 在图灵测试中的表现" 中的核心主张，即缺乏最小严肃性的测试实施，并得出ChatGPT-4未能通过图灵测试的结论。分析显示，基于严格的标准和有限实验数据的批评并不完全站得住脚。更重要的是，论文做出了多项建设性的贡献，丰富了我们对图灵测试实施的理解。它证明了两种不同的格式——三人玩家测试和二人玩家测试——都是有效的，每种都有独特的元方法论影响。该项工作区分了绝对标准（反映三人玩家格式下的最优50%识别率）和相对标准（衡量机器表现与人类表现的接近程度），从而提供了一个更细致的评估框架。此外，论文通过将两种测试类型建模为伯努利实验——三玩家版本相关，二人玩家版本不相关，澄清了两种测试类型的概率基础。这种形式化允许在理论上定义通过测试的标准，这些标准用概率术语描述，以及需要稳健的统计方法来正确解释的实验数据之间进行严格的区分。因此，这篇论文不仅驳斥了受批评研究的关键方面，还为未来研究如何更接近或偏离人类行为的AI行为客观衡量标准奠定了坚实的基础。