LLM2D

摘要

arXiv:2502.10807v2 交叉类型摘要：自然语言处理和大型语言模型的进步激发了对DNA进行建模的兴趣，DNA常常被称为“生命的语言”。然而，DNA建模面临着独特的挑战。首先，它需要能够处理超长的DNA序列，同时保持单核苷酸分辨率，因为单个核苷酸在DNA功能中扮演着关键角色。其次，在这个领域取得成功需要在生成性和理解性任务上均表现出色：生成性任务有望在治疗和工业应用方面有所突破，而理解性任务则提供了对生物机制和疾病至关重要的洞察。为应对这些挑战，我们提出了一种名为HybriDNA的解码器型DNA语言模型，该模型结合了混合Transformer-Mamba2架构，无缝集成了注意力机制与选择性状态空间模型的优势。这种混合设计使HybriDNA能够高效处理长达131kb的DNA序列，并保持单核苷酸分辨率。HybriDNA在BEND、GUE和LRB基准库中收集的33个DNA理解数据集中均取得了最先进的性能，并展示了在生成具有所需特性的合成顺式调控元件（CREs）方面的卓越能力。此外，我们证明了HybriDNA遵循预期的扩展规律，随着模型从300M、3B增至7B参数，性能持续提升。这些发现突显了HybriDNA的多功能性及其在推进DNA研究和应用方面的潜力，为理解和工程“生命的语言”开辟了创新的道路。