LLM2D

摘要

我们引入了DNABERT-S，这是一个定制的基因组模型，它开发了物种感知嵌入，以自然地将不同物种的DNA序列在嵌入空间中聚类和分离。从基因组序列（即DNA和RNA）中区分物种至关重要，但也极具挑战性，因为许多现实世界中的物种仍未被表征，缺乏已知的基因组作为参考。因此，基于嵌入的方法被用来以无监督的方式区分物种。DNABERT-S建立在一个名为DNABERT-2的预训练基因组基础模型之上。为了鼓励对易出错的长读长DNA序列进行有效的嵌入，我们引入了流形实例混合（MI-Mix），这是一种对比目标，它混合了在随机选择的层上DNA序列的隐藏表示，并训练模型识别和区分输出层中的这些混合比例。我们进一步用提出的课程对比学习（C²LR）策略对其进行了增强。对23个不同数据集的实证结果表明了DNABERT-S的有效性，尤其是在现实的标签稀缺场景中。例如，它从未标记基因组序列的混合物中识别出两倍多的物种，将物种聚类的调整兰德指数（ARI）提高了一倍，并且在仅进行2次训练的情况下，在10次样本物种分类中优于顶级基线的性能。模型、代码和数据已公开发布在\url{https://github.com/MAGICS-LAB/DNABERT_S}。