LLM2D

摘要

arXiv:2502.03499v1 公告类型：交叉摘要：大规模语言模型（LLMs）在各种任务上展示了出色的泛化能力，然而，基因组基础模型（GFMs）仍需要为每个下游应用进行单独的微调，随着模型规模的扩大，这将带来显著的开销。此外，现有的GFMs受到僵化的输出格式限制，限制了它们在各种基因组任务中的应用。在本文中，我们重新审视了基于变换器的自回归模型，并引入了Omni-DNA这一系列跨模态多任务模型，其参数范围从2000万到1亿。我们的方法包括两个阶段：（i）在DNA序列上进行预训练，目标为下一个标记预测，以及（ii）扩展多模态任务特定的令牌并同时对多个下游任务进行微调。在Nucleotide Transformer和GB基准测试中，Omni-DNA在26个任务中的18个任务上达到了最先进的性能。通过多任务微调，Omni-DNA一次处理了10个乙酰化和甲基化任务，超过了单独针对每个任务训练的模型。最后，我们设计了两个复杂的基因组任务：DNA2Function和Needle-in-DNA，分别将DNA序列映射到文本功能描述和图像上，表明Omni-DNA的跨模态能力可扩大基因组应用的范围。所有模型均可通过https://huggingface.co/collections/zehui127访问。