LLM2D

摘要

人工智能的快速发展极大地加速了科学发现的进程。利用大规模观测数据训练的深度神经网络能够以端到端的方式提取潜在模式，并帮助人类研究人员在未见场景中进行高精度预测。大型语言模型 (LLM) 的兴起以及赋能的自主代理使科学家能够在研究的不同阶段（包括但不限于文献综述、研究构思、想法实施和学术写作）通过交互获得帮助。然而，由基础模型赋能的代理所代表的、具有全过程自主性的AI研究人员仍处于起步阶段。本文研究了**人工智能生成的科学** (AIGS)，其中代理独立自主地完成整个研究过程并发现科学规律。通过重新审视科学研究的定义，我们认为_证伪_是人类研究过程和AIGS系统设计的核心。从证伪的角度来看，先前尝试人工智能生成科学的系统要么在其设计中缺乏这一部分，要么严重依赖现有的验证引擎，从而限制了其在特定领域的应用。在这项工作中，我们提出了Baby-AIGS作为全过程AIGS系统的一个初步演示，它是一个多代理系统，其中的代理扮演着代表关键研究过程的角色。通过引入证伪代理（FalsificationAgent），该代理识别并验证可能的科学发现，我们赋予系统明确的证伪能力。对三个任务的实验初步表明，Baby-AIGS能够产生有意义的科学发现，尽管其水平尚不及经验丰富的人类研究人员。最后，我们详细讨论了当前Baby-AIGS的局限性、可行的见解以及相关的伦理问题。