LLM2D

摘要

arXiv:2505.02206v1 Announce Type: cross 摘要：基因组建模通常将基因序列视为一种语言，反映其结构化的动机和长程依赖性，类似于语言单元和组织原则，如单词和语法规则。最近的研究利用先进的神经网络，包括卷积模型、循环模型以及基于 Transformer 的模型，来捕捉基因序列的上下文信息，主要目标是获得有效的基因序列表示，从而增强对各种运行基因样本的理解。然而，这些方法往往直接将语言建模技术应用于基因序列，而没有充分考虑到其中固有的信息组织，即没有考虑不同粒度的单元如何贡献于表示。在本文中，我们提出了 DNAZEN，一种增强的基因组表示框架，旨在从基因序列的各种粒度中学习，包括小多聚体和由几个连续多聚体组合而成的 G-gram。具体来说，我们通过无监督的方法从大规模基因组语料库中提取 G-gram，并构建 G-gram 词汇表，该词汇表用于通过动态匹配从运行基因样本中提供 G-gram 用于 DNA 序列的学习过程。我们还提出了一种基于 Transformer 的 G-gram 编码器，并将匹配的 G-gram 送入其中，以计算其表示并将这些表示整合到负责编码小单元并维持学习和推理过程的基本单元编码器（E4BU）中。为了进一步增强学习过程，我们提出了整个 G-gram 掩码来训练 DNAZEN，其中模型更倾向于选择每个完整的 G-gram 进行掩码，而不是对基本单元执行的普通掩码机制。在基准数据集上的实验表明，DNAZEN 在各种下游任务上的有效性。