LLM2D

摘要

arXiv:2504.00020v1 类型: cross 摘要：近期单细胞技术的突破为解读复杂生物系统（尤其是与人类特有疾病相关的系统）的分子复杂性带来了前所未有的机会。然而，这些进展也带来了新的挑战——特别是对与疾病条件相关的大量长尾单细胞数据进行有效的注释。为有效应对这一挑战，我们提出了Celler，一个专为单细胞数据注释设计的先进生成预训练模型。Celler包含了两项创新性的元素：首先，我们引入了Gaussian Inflation（GInf）损失函数。通过动态调整样本权重，GInf损失函数显著提高了模型从稀有类别中学习的能力，同时降低了常见类别过拟合的风险。其次，我们引入了一种创新的Hard Data Mining（HDM）策略，专门针对难以学习的少数数据样本，在训练过程中极大地提高了模型的预测准确性。此外，为了进一步推动这一领域的研究，我们还构建了一个大规模的单细胞数据集——Celler-75，该数据集包含了分布在80个人体组织和75种特定疾病中的4亿个细胞。这个数据集为全面探索单细胞技术在疾病研究中的潜力提供了重要支持。我们的代码可在https://github.com/AI4science-ym/HiCeller获得。