LLM2D
基因型到表型预测的扩散模型
G2PDiffusion: Genotype-to-Phenotype Prediction with Diffusion Models
作者: Mengdi Liu, Zhangyang Gao, Hong Chang, Stan Z. Li, Shiguang Shan, Xilin Chen
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.04684v2

摘要

arXiv:2502.04684v2 宣告类型: replace-cross 摘要:发现基因型-表型关系对于遗传工程至关重要,这将促进作物育种、保护生物学和个人化医疗等领域的发展。当前的研究通常专注于单个物种和小型数据集中,由于表型数据收集的限制,特别是在需要视觉评估或物理测量的性状方面。从基因数据中大规模解码复杂的复合表型,如形态学表型,仍然是一个开放的问题。为了突破依赖于简化假设的传统通用模型,本文介绍了G2PDiffusion,这是首个用于多物种基因型到表型生成的扩散模型。具体来说,我们使用图像来表示不同物种的形态学表型,并将表型预测重新定义为条件图像生成。为此,本文引入了环境增强的DNA序列条件器,并使用一种新型对齐方法训练稳定扩散模型以提高基因型到表型的一致性。广泛的实验表明,我们的方法提高了跨物种的表型预测准确性,捕捉到了对可观察性状有贡献的细微基因变异。