LLM2D
TFBS-Finder:基于DNABERT和卷积网络的深度学习模型用于预测转录因子结合位点
TFBS-Finder: Deep Learning-based Model with DNABERT and Convolutional Networks to Predict Transcription Factor Binding Sites
作者: Nimisha Ghosh, Pratik Dutta, Daniele Santoni
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01311v1

摘要

arXiv:2502.01311v1 声明类型: cross 摘要:转录因子是通过结合特定的基因组区域(称为转录因子结合位点TFBSs)来调控基因表达的蛋白质,通常位于这些基因的启动子区域。准确预测这些结合位点对于理解各种细胞功能背后的复杂基因调控网络至关重要。在这方面,已经开发了许多深度学习模型来进行这种预测,但仍有改进的空间。在这项工作中,我们开发了一个深度学习模型,该模型使用预训练的DNABERT,一个卷积神经网络(CNN)模块,一个修改的卷积块注意力模块(MCBAM),多尺度卷积注意力模块(MSCA)以及一个输出模块。预训练的DNABERT用于序列嵌入,从而捕捉DNA序列中的长程依赖关系,而CNN、MCBAM和MSCA模块则有助于提取高阶局部特征。TFBS-Finder是在165个ENCODE ChIP-seq数据集中训练和测试的。我们还进行了消融研究以及跨细胞系的验证和与其他模型的比较。实验结果表明,与现有方法相比,所提出的方法在预测TFBSs方面具有优越性。相关代码和数据集可在https://github.com/NimishaGhosh/TFBS-Finder/公开获取。