LLM2D
超越序列:几何上下文对RNA属性预测的影响
Beyond Sequence: Impact of Geometric Context for RNA Property Prediction
作者: Junjie Xu, Artem Moskalev, Tommaso Mansi, Mangal Prakash, Rui Liao
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2410.11933v2

摘要

arXiv:2410.11933v2 宣布类型: 交叉替换 摘要: RNA 性质(如稳定性与相互作用)的精确预测对于推动我们对生物过程的理解和开发基于 RNA 的疗法至关重要。RNA 结构可以表示为 1D 序列、2D 顶点图或 3D 原子模型,每种表示方式都提供了对其功能的不同见解。现有工作主要集中在基于 1D 序列的模型上,而忽略了由 2D 和 3D 几何结构提供的上下文信息。本研究首次系统地评估了将显式的 2D 和 3D 几何信息纳入 RNA 性质预测的方法,不仅考虑了性能,还考虑了实际挑战,如数据可用性有限、部分标注、测序噪声和计算效率。为此,我们引入了一个新的 RNA 数据集集,其中包含增强的 2D 和 3D 结构注释,为 RNA 数据的模型评估提供了一个资源。我们的研究发现,具有显式几何编码的模型通常优于基于序列的模型,在所有不同类型 RNA 任务上的平均预测 RMSE 减少约 12%,特别是在数据量有限和部分标注的情况下表现更佳,这突显了明确纳入几何上下文的价值。另一方面,对测序噪声不敏感的基于序列的模型在需要更多数据以匹配几何感知模型的性能时表现更稳定,通常需要大约 2-5 倍的训练数据。本研究进一步揭示了在实际应用中不同 RNA 表示之间的权衡,并解决了评估 RNA 任务中的深度学习模型的显著差距。