LLM2D
AI 预测 AGI:利用 AGI 预测和同行评审探索大语言模型的复杂推理能力
AI Predicts AGI: Leveraging AGI Forecasting and Peer Review to Explore LLMs' Complex Reasoning Capabilities
作者: Fabrizio Davide, Pietro Torre, Leonardo Ercolani, Andrea Gaggioli
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2412.09385v2

摘要

arXiv:2412.09385v2 宣布类型:替换 摘要:我们要求16个最先进的大型语言模型(LLMs)估算人工智能通用智能(AGI)在2030年出现的概率。为了评估这些预测的质量,我们实施了一个自动同行评审过程(LLM-PR)。这些LLMs的估计值差异很大,从Reka-Core的3%到GPT-4o的47.6%,中位数为12.5%。这些估计值与最近一项专家调查的预测相吻合,预测显示到2027年AGI出现的概率为10%,这强调了LLMs在预测复杂、推测性场景方面的重要性。LLM-PR过程显示出很强的可靠性,这从高内类别相关系数(ICC = 0.79)中得到了证实,反映了模型评分的一致性。在这之中,Pplx-70b-online脱颖而出成为最佳模型,而Gemini-1.5-pro-api排名最低。与外部基准,如LMSYS Chatbot Arena的交叉比较显示,LLMs的排名在不同的评估方法中保持一致,这表明现有的基准可能无法涵盖对AGI预测相关的部分技能。我们进一步探讨了基于外部基准的加权方案,优化LLMs的预测与人类专家预测的一致性。这一分析导致开发了新的“AGI基准”,旨在突出AGI相关任务中的性能差异。我们的研究结果提供了关于LLMs在推测性和跨学科预报任务方面的能力见解,并强调了在复杂、不确定的现实场景中评估AI性能时创新评估框架的需求。