摘要
这项研究引入了一种新颖的评估框架,用于评估大型语言模型 (LLM) 在 675 个根本无法解决的问题上承认不确定性的能力。我们使用一个精心策划的、包含研究生水平重大挑战性问题(这些问题故意设计成答案未知)的数据集,评估了 12 个最先进的 LLM(包括开源和闭源模型),考察它们承认无知而非生成似是而非但错误答案的倾向。最佳模型在承认问题解决方案未知方面的准确率在 62% 到 68% 之间,涵盖了从生物学到哲学和数学等多个领域。我们观察到问题难度与模型准确率之间存在反比关系,GPT-4 在更具挑战性的问题上表现出更高的不确定性承认率 (35.8%),而在较简单的问题上则为 20.0%。这种模式表明,当问题看起来更容易解决时,模型更容易产生推测性答案。这项研究还揭示了不同问题类别之间的显著差异,模型在承认发明和 NP 完全问题中的不确定性方面存在困难,而在哲学和心理学挑战方面表现相对较好。这些结果通过强调不确定性识别作为未来机器智能评估的关键组成部分,为不断增长的关于人工智能通用性 (AGI) 评估的研究做出了贡献。因此,这项不可能性测试通过提供当前 LLM 识别自身知识边界能力的局限性的经验证据,扩展了以往关于通用智能测试的理论框架,并为改进模型训练架构和评估方法提出了新的方向。