摘要
arXiv:2502.10807v2 交叉类型
摘要:自然语言处理和大型语言模型的进步激发了对DNA进行建模的兴趣,DNA常常被称为“生命的语言”。然而,DNA建模面临着独特的挑战。首先,它需要能够处理超长的DNA序列,同时保持单核苷酸分辨率,因为单个核苷酸在DNA功能中扮演着关键角色。其次,在这个领域取得成功需要在生成性和理解性任务上均表现出色:生成性任务有望在治疗和工业应用方面有所突破,而理解性任务则提供了对生物机制和疾病至关重要的洞察。为应对这些挑战,我们提出了一种名为HybriDNA的解码器型DNA语言模型,该模型结合了混合Transformer-Mamba2架构,无缝集成了注意力机制与选择性状态空间模型的优势。这种混合设计使HybriDNA能够高效处理长达131kb的DNA序列,并保持单核苷酸分辨率。HybriDNA在BEND、GUE和LRB基准库中收集的33个DNA理解数据集中均取得了最先进的性能,并展示了在生成具有所需特性的合成顺式调控元件(CREs)方面的卓越能力。此外,我们证明了HybriDNA遵循预期的扩展规律,随着模型从300M、3B增至7B参数,性能持续提升。这些发现突显了HybriDNA的多功能性及其在推进DNA研究和应用方面的潜力,为理解和工程“生命的语言”开辟了创新的道路。