LLM2D

摘要

理性地识别导致生物系统发生变化的变量，可以在疾病理解和细胞工程领域带来无数应用。从因果关系的角度来看，我们得到了两个由同一个因果模型生成的、具有相同因果模型的数据集，一个是观察数据集（对照），另一个是干预数据集（扰动）。目标是隔离被干预的目标变量子集（例如基因），即那些条件独立性发生变化的变量。了解因果图将限制搜索空间，使我们能够有效地识别这些变量。然而，当前在存在未知干预目标的情况下推断因果图的算法，在生物数据中数百或数千个变量的情况下扩展性很差，因为它们必须联合搜索图和一致干预目标的组合空间。在这项工作中，我们提出了一种受因果关系启发的预测扰动目标的方法，它将两个搜索步骤解耦。首先，我们使用一种摊销因果发现模型，从观察数据集和干预数据集中分别推断因果图。然后，我们在监督学习框架中学习将这些配对的图映射到被干预的变量集。这种方法在七个单细胞转录组学数据集上始终优于扰动建模的基线，每个数据集都有数千个测量变量。我们还证明了在各种易处理的合成数据集上，在预测干预目标方面，与六种因果发现算法相比，有显著的改进。