LLM2D

摘要

理解和解读基因序列中编码的复杂信息，一直是生物学研究和临床应用的重大挑战。在此背景下，大型语言模型研究的最新进展，已经促使人们开发了编码器专用和解码器专用的基础模型，旨在解码DNA序列中的复杂信息。然而，仍存在一些问题，特别是在有效管理基因序列中固有的长程依赖性，有效表示核苷酸变异，以及大型模型架构和广泛的预训练数据集带来的巨大计算成本方面。当前的基因组基础模型往往面临一个关键的权衡：较小的模型性能平庸，而较大的模型性能有所提高。为了应对这些挑战，我们引入了dnaGrinder，这是一种独特且高效的基因组基础模型。dnaGrinder在管理基因序列中的长程依赖性方面表现出色，同时最大限度地降低计算成本，而不会影响性能。它取得的结果不仅与领先的DNA模型（如核苷酸Transformer和DNABERT-2）相当，而且往往优于这些模型。此外，dnaGrinder的设计易于在工作站级GPU上进行微调，能够容纳超过17,000个标记的输入长度。在一个单一的高性能GPU上，它支持超过140,000个标记的序列，使其成为基础生物研究和临床应用中高度高效且易于使用的工具。