LLM2D

摘要

arXiv:2503.22708v1 新型自动科学发现系统公告摘要：尽管在自主科学研究（ASD，Automated Scientific Discovery）软件构件（例如，改进的机器学习算法）方面出现了浓厚的兴趣，当前的ASD系统面临两大关键限制：（1）它们主要探索现有代码库的变体或类似受约束的设计空间，（2）它们生成大量的研究构件（例如，自动产生的论文和代码），通常使用会议风格的论文评审进行评估，代码的评估相对有限。在本文中，我们引入了CodeScientist，这是一个新颖的ASD系统，将理念生成和实验构建视为一种基于研究文章和定义领域中常见操作的代码块（例如，提示语言模型）组合的遗传搜索形式。我们使用这一范式对广泛应用于代理和虚拟环境领域的机器生成理念进行了数百次自动化实验，系统返回了19项发现，其中6项被多方面的评估认定为至少具有一定稳健性且增量新颖，该评估不仅包括先前工作中通常使用的外部（会议风格）评审、代码评审，还包括复制尝试。此外，这些发现涵盖了新任务、新代理、新度量标准和新数据，表明从基准优化到更广泛发现的质的转变。