摘要
arXiv:2502.14297v1 通知类型: 交叉
摘要:实现人工通用智能(AGI)和超级智能的一个重大进步是人工智能能够自主开展研究,我们将其称为人工通用研究智能(AGRI)。如果机器能够在没有人类干预的情况下生成假设、进行实验并撰写研究论文,这将彻底改变科学界。最近,Sakana.ai推出了AI科学家,这是一个声称能够自动化研究生命周期的系统,引发了人们的兴奋和怀疑。
我们评估了AI科学家,发现它是AI驱动研究的一个里程碑。尽管它简化了一些方面,但仍未能达到预期。文献回顾较弱,近半数实验失败,且稿件中有时包含幻觉结果。最值得注意的是,用户必须提供实验流程,限制了AI科学家在研究设计和执行方面的自主性。
尽管存在这些限制,AI科学家仍推动了研究自动化。许多仅进行浅层评估的审稿人或教师可能无法识别其输出为AI生成。该系统能够以最少的人力和成本生产研究论文,我们的分析表明,一篇论文只需几小时的人工参与即可完成,这远远快于人类研究人员。与几年前的AI能力相比,这标志着向AGRI迈进了一步。
随着AI驱动研究系统的兴起,在信息检索(IR)和更广泛的科学社区中亟需进行紧急讨论。增强文献检索、引文验证和评估基准可以提高AI生成研究的可靠性。我们提出了具体步骤,包括AGRI特定的基准、细化同行评审和标准化归属框架。AGRI是否成为通往AGI的一步,取决于学术界和人工智能社区如何塑造其发展。