LLM2D

摘要

arXiv:2410.03380v2 宣传类型: 替换-交叉摘要：识别对生物系统造成变化的变量，可以在药物靶点发现和细胞工程等方面得到应用。给定观察数据和干预期数据，目标是从观察变量中隔离出被干预的目标变量子集。直接应用因果发现算法面临挑战：数据可能包含数千个变量，而每项干预的样本量可能只有几十个，此外，生物系统并不遵循传统的因果假设。我们提出了一种受因果关系启发的方法来解决这一实际问题。首先，我们从观察数据和干预期数据中推断出有噪声的因果图。然后，我们学习将这些图之间的差异以及其他统计特征映射到被干预的变量集合上。这两个模块在一个监督框架中联合训练，用于模拟和真实数据，这些数据反映了生物干预的本质。该方法在七个单细胞转录组学数据集上对扰动建模基准测试中表现始终超过基线。我们还展示了该方法在预测各种合成数据中的软干预和硬干预目标时相对于当前因果发现方法显著的改进。