LLM2D

摘要

基于大型语言模型的智能体在利用其丰富的背景知识和推理能力加速科学发现方面展现出巨大潜力。本文介绍了 BioDiscoveryAgent，它能够设计新的实验、推理实验结果，并高效地遍历假设空间以达到期望的解决方案。我们通过设计基因扰动实验的问题来展示我们的智能体，该问题旨在找到许多可能基因中的一小部分，当这些基因被扰动时，会导致特定的表型（例如，细胞生长）。利用其生物学知识，BioDiscoveryAgent 能够独特地设计新的实验，而无需训练机器学习模型或像贝叶斯优化那样显式地设计获取函数。此外，BioDiscoveryAgent 使用 Claude 3.5 Sonnet 在六个数据集上预测相关基因扰动的平均准确率提高了 21%，在更难的非必需基因扰动任务中提高了 46%，相比专门为此任务训练的现有贝叶斯优化基线。我们的评估包括一个未公开的数据集，确保它不属于语言模型的训练数据。此外，BioDiscoveryAgent 预测基因组合的扰动准确率是随机基线的两倍以上，这在闭环实验设计中尚未探索。该智能体还可以访问工具来搜索生物医学文献、执行代码来分析生物数据集，并提示另一个智能体对其预测进行批判性评估。总的来说，BioDiscoveryAgent 在每个阶段都是可解释的，代表了一种新的可访问范式，用于计算生物实验设计，有可能提高科学家的效率。