LLM2D

摘要

制药行业中高通量筛选 (HTS) 所产生的海量且多样的成像数据为训练虚拟染色模型提供了极好的资源。然而，在一种实验条件下训练的模型是否能够推广到其他条件下，这一潜力尚未得到充分探索。本研究系统地调查了来自三种细胞类型（肺、卵巢和乳腺）和两种表型（毒性和非毒性条件）的数据，这些数据在 HTS 中常见，是否可以有效地训练虚拟染色模型，使其能够推广到三种典型的 HTS 分布变化：未见过的表型、未见过的细胞类型以及两者结合。利用一个包含 772,416 对明场、细胞质、细胞核和 DNA 损伤染色图像的数据集，我们评估了模型在像素级、实例级和生物特征级上的泛化能力。我们的研究结果表明，在非毒性条件样本上训练虚拟细胞核和细胞质模型不仅可以推广到毒性条件样本，而且与在毒性条件样本上训练相比，在所有评估级别上都表现出更好的性能。对未见过的细胞类型的泛化表现出可变性，这取决于细胞类型；在卵巢或肺细胞样本上训练的模型通常在其他条件下表现良好，而那些在乳腺细胞样本上训练的模型始终表现出较差的泛化能力。对未见过的细胞类型和表型的泛化在所有评估级别上表现出良好的泛化能力，与单独解决未见过的细胞类型相比。这项研究代表了对在各种 HTS 数据集上训练的虚拟染色模型的泛化能力进行的首次大规模、数据中心分析，为实验训练数据的生成提供了宝贵的策略。