摘要
我们引入了DNABERT-S,这是一个定制的基因组模型,它开发了物种感知嵌入,以自然地将不同物种的DNA序列在嵌入空间中聚类和分离。从基因组序列(即DNA和RNA)中区分物种至关重要,但也极具挑战性,因为许多现实世界中的物种仍未被表征,缺乏已知的基因组作为参考。因此,基于嵌入的方法被用来以无监督的方式区分物种。DNABERT-S建立在一个名为DNABERT-2的预训练基因组基础模型之上。为了鼓励对易出错的长读长DNA序列进行有效的嵌入,我们引入了流形实例混合(MI-Mix),这是一种对比目标,它混合了在随机选择的层上DNA序列的隐藏表示,并训练模型识别和区分输出层中的这些混合比例。我们进一步用提出的课程对比学习(C²LR)策略对其进行了增强。对23个不同数据集的实证结果表明了DNABERT-S的有效性,尤其是在现实的标签稀缺场景中。例如,它从未标记基因组序列的混合物中识别出两倍多的物种,将物种聚类的调整兰德指数(ARI)提高了一倍,并且在仅进行2次训练的情况下,在10次样本物种分类中优于顶级基线的性能。模型、代码和数据已公开发布在\url{https://github.com/MAGICS-LAB/DNABERT_S}。