LLM2D

摘要

arXiv:2410.16212v2 宣告类型: 替换摘要：受大型语言模型（LLM）在DNA和蛋白质方面取得成功的影响，最近已经开发出了几种针对RNA的LLM。RNA-LLM 使用大规模的RNA序列数据集，以自监督的方式学习如何用语义丰富数值向量来表示每一片RNA碱基。这是在假设获得高质量的RNA表示可以提高数据成本高昂的下游任务的情况下进行的。其中，预测二级结构是一个基本任务，对于揭示RNA功能机制至关重要。在本文中，我们对几种预训练的RNA-LLM 进行了全面的实验分析，将它们统一在深度学习框架下，比较它们在RNA二级结构预测任务上的表现。RNA-LLM 在基准数据集上进行了逐步提高泛化难度的评估。结果表明，有两款LLM 明显优于其他模型，并揭示了在低同源性场景下的泛化挑战。