LLM2D
学习发现调控元件进行基因表达预测
Learning to Discover Regulatory Elements for Gene Expression Prediction
作者: Xingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.13991v1

摘要

arXiv:2502.13991v1 声明类型:cross 摘要:我们考虑从DNA序列预测基因表达的问题。这个任务的关键挑战在于找到控制基因表达的调控元件。在这里,我们介绍了Seq2Exp,这是一种专门设计的序列到表达网络,旨在发现和提取驱动目标基因表达的调控元件,从而提高基因表达预测的准确性。我们的方法捕获了表观遗传信号、DNA序列及其相关调控元件之间的因果关系。具体来说,我们建议将因果活跃调控元件条件下的表观遗传信号和DNA序列进行分解,并使用Beta分布的信息瓶颈结合它们的效果,同时过滤掉非因果成分。我们的实验表明,Seq2Exp在基因表达预测任务中优于现有基线,并且与通常用于峰值检测的统计方法(如MACS3)相比,发现了更具影响力的区域。该项目的源代码作为AIRS库的一部分进行了发布(https://github.com/divelab/AIRS/)。