LLM2D

摘要

arXiv:2504.09704v1 宣告类型: cross 摘要：基于Transformer的模型在自然语言处理和视觉任务中取得了显著的成功，但由于基因表达数据的稀疏性、高维度和缺失值问题，其在基因表达分析中的应用仍然受到限制。我们提出了一种基于Transformer的自动编码器框架GexBERT，用于稳健的基因表达数据表示学习。GexBERT通过在大规模转录组谱型上进行预训练，使用一个掩码和恢复目标来捕捉成千上万基因之间的共表达关系，从而学习上下文感知的基因嵌入。我们评估了GexBERT在癌症研究中的三个关键任务：泛癌分类、癌症特异性生存预测和缺失值填充。GexBERT从有限的基因子集中实现了最先进的分类准确性，通过对预后锚基因的表达恢复改进了生存预测，并在高缺失情况下优于传统的填充方法。此外，其基于注意力的可解释性揭示了跨癌症类型具有生物学意义的基因模式。这些发现表明，GexBERT作为一种可扩展且有效的基因表达建模工具，在基因覆盖有限或不完整的情况下具有转化潜力。