摘要
arXiv:2502.03499v1 公告类型:交叉
摘要:大规模语言模型(LLMs)在各种任务上展示了出色的泛化能力,然而,基因组基础模型(GFMs)仍需要为每个下游应用进行单独的微调,随着模型规模的扩大,这将带来显著的开销。此外,现有的GFMs受到僵化的输出格式限制,限制了它们在各种基因组任务中的应用。在本文中,我们重新审视了基于变换器的自回归模型,并引入了Omni-DNA这一系列跨模态多任务模型,其参数范围从2000万到1亿。我们的方法包括两个阶段:(i)在DNA序列上进行预训练,目标为下一个标记预测,以及(ii)扩展多模态任务特定的令牌并同时对多个下游任务进行微调。在Nucleotide Transformer和GB基准测试中,Omni-DNA在26个任务中的18个任务上达到了最先进的性能。通过多任务微调,Omni-DNA一次处理了10个乙酰化和甲基化任务,超过了单独针对每个任务训练的模型。最后,我们设计了两个复杂的基因组任务:DNA2Function和Needle-in-DNA,分别将DNA序列映射到文本功能描述和图像上,表明Omni-DNA的跨模态能力可扩大基因组应用的范围。所有模型均可通过https://huggingface.co/collections/zehui127访问。