LLM2D
HybriDNA:一种混合Transformer-Mamba2长范围DNA语言模型
HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model
作者: Mingqian Ma, Guoqing Liu, Chuan Cao, Pan Deng, Tri Dao, Albert Gu, Peiran Jin, Zhao Yang, Yingce Xia, Renqian Luo, Pipi Hu, Zun Wang, Yuan-Jyue Chen, Haiguang Liu, Tao Qin
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10807v1

摘要

arXiv:2502.10807v1 编码类型: cross 摘要:自然语言处理和大型语言模型的进步激发了对DNA建模越来越大的兴趣,常常将DNA称为“生命之语言”。然而,DNA建模带来了独特的挑战。首先,它需要处理超长DNA序列并保持单核苷酸分辨率,因为单独的核苷酸在DNA功能中起着关键作用。其次,在这一领域取得成功需要在生成性和理解性任务上都表现出色:生成性任务有望在治疗和工业应用中发挥作用,而理解性任务则提供了深入了解生物机制和疾病的关键见解。为了应对这些挑战,我们提出了HybriDNA,这是一种仅解码的DNA语言模型,结合了混合Transformer-Mamba2架构,无缝地将注意力机制的优势与选择性状态空间模型的优势结合起来。这种混合设计使HybriDNA能够高效处理长达131kb的DNA序列,并保持单核苷酸分辨率。HybriDNA在BEND、GUE和LRB基准中收集的33个DNA理解数据集中达到了最先进的性能,并展示了在生成具有所需属性的顺式调节元件(CREs)方面的出色能力。此外,我们表明HybriDNA遵循预期的扩展法则,性能随着模型参数从300M、3B和7B逐渐增加而一致地提升。这些发现突显了HybriDNA的多功能性,并揭示了其在推进DNA研究和应用方面的潜力,为理解和工程“生命之语言”铺平了道路。