摘要
理解和解读基因序列中编码的复杂信息,一直是生物学研究和临床应用的重大挑战。在此背景下,大型语言模型研究的最新进展,已经促使人们开发了编码器专用和解码器专用的基础模型,旨在解码DNA序列中的复杂信息。然而,仍存在一些问题,特别是在有效管理基因序列中固有的长程依赖性,有效表示核苷酸变异,以及大型模型架构和广泛的预训练数据集带来的巨大计算成本方面。当前的基因组基础模型往往面临一个关键的权衡:较小的模型性能平庸,而较大的模型性能有所提高。为了应对这些挑战,我们引入了dnaGrinder,这是一种独特且高效的基因组基础模型。dnaGrinder在管理基因序列中的长程依赖性方面表现出色,同时最大限度地降低计算成本,而不会影响性能。它取得的结果不仅与领先的DNA模型(如核苷酸Transformer和DNABERT-2)相当,而且往往优于这些模型。此外,dnaGrinder的设计易于在工作站级GPU上进行微调,能够容纳超过17,000个标记的输入长度。在一个单一的高性能GPU上,它支持超过140,000个标记的序列,使其成为基础生物研究和临床应用中高度高效且易于使用的工具。