LLM2D

摘要

arXiv:2412.09385v2 宣布类型：替换摘要：我们要求16个最先进的大型语言模型（LLMs）估算人工智能通用智能（AGI）在2030年出现的概率。为了评估这些预测的质量，我们实施了一个自动同行评审过程（LLM-PR）。这些LLMs的估计值差异很大，从Reka-Core的3%到GPT-4o的47.6%，中位数为12.5%。这些估计值与最近一项专家调查的预测相吻合，预测显示到2027年AGI出现的概率为10%，这强调了LLMs在预测复杂、推测性场景方面的重要性。LLM-PR过程显示出很强的可靠性，这从高内类别相关系数（ICC = 0.79）中得到了证实，反映了模型评分的一致性。在这之中，Pplx-70b-online脱颖而出成为最佳模型，而Gemini-1.5-pro-api排名最低。与外部基准，如LMSYS Chatbot Arena的交叉比较显示，LLMs的排名在不同的评估方法中保持一致，这表明现有的基准可能无法涵盖对AGI预测相关的部分技能。我们进一步探讨了基于外部基准的加权方案，优化LLMs的预测与人类专家预测的一致性。这一分析导致开发了新的“AGI基准”，旨在突出AGI相关任务中的性能差异。我们的研究结果提供了关于LLMs在推测性和跨学科预报任务方面的能力见解，并强调了在复杂、不确定的现实场景中评估AI性能时创新评估框架的需求。