LLM2D

摘要

arXiv:2502.14297v1 通知类型: 交叉摘要：实现人工通用智能（AGI）和超级智能的一个重大进步是人工智能能够自主开展研究，我们将其称为人工通用研究智能（AGRI）。如果机器能够在没有人类干预的情况下生成假设、进行实验并撰写研究论文，这将彻底改变科学界。最近，Sakana.ai推出了AI科学家，这是一个声称能够自动化研究生命周期的系统，引发了人们的兴奋和怀疑。我们评估了AI科学家，发现它是AI驱动研究的一个里程碑。尽管它简化了一些方面，但仍未能达到预期。文献回顾较弱，近半数实验失败，且稿件中有时包含幻觉结果。最值得注意的是，用户必须提供实验流程，限制了AI科学家在研究设计和执行方面的自主性。尽管存在这些限制，AI科学家仍推动了研究自动化。许多仅进行浅层评估的审稿人或教师可能无法识别其输出为AI生成。该系统能够以最少的人力和成本生产研究论文，我们的分析表明，一篇论文只需几小时的人工参与即可完成，这远远快于人类研究人员。与几年前的AI能力相比，这标志着向AGRI迈进了一步。随着AI驱动研究系统的兴起，在信息检索（IR）和更广泛的科学社区中亟需进行紧急讨论。增强文献检索、引文验证和评估基准可以提高AI生成研究的可靠性。我们提出了具体步骤，包括AGRI特定的基准、细化同行评审和标准化归属框架。AGRI是否成为通往AGI的一步，取决于学术界和人工智能社区如何塑造其发展。