LLM2D

摘要

arXiv:2504.00036v1 Announce Type: cross 摘要：机器学习已经在关键领域，如医学中取得了成功。然而，从生物医学数据中提取有意义的洞察往往受到可用疾病标签缺乏的限制。在本研究中，我们展示了即使在疾病建模预测改进有限的情况下，机器学习如何被利用来增强可解释性并揭示生物意义的相关性。我们从头训练了10K数据集上的LightGBM模型来填补代谢组学特征，并将这些特征应用于UK生物银行（UKBB）进行下游分析。填充的代谢组学特征随后被用于生存分析以评估其对疾病相关风险因素的影响。结果，我们的方法成功识别了先前预测模型未知的生物相关联接。此外，我们对关键代谢组学特征进行了全基因组关联研究（GWAS），揭示了血管性痴呆与吸烟之间的关联。尽管这是一条已确立的流行病学关系，但这种关联并未包含在模型的训练数据中，这验证了该方法提取有意义信号的能力。此外，通过将生存模型作为输入整合到10K数据中，我们发现了代谢物质与肥胖之间的关联，证明了在无需直接结果标签的情况下推断未来患者疾病风险的能力。这些发现突显了利用外部生物库在数据有限的情况下提取有价值的生物医学洞察的潜力。我们的结果表明，当仔细结合生存分析和遗传研究时，基于较小数据集训练的机器学习模型仍然可以用于揭示真实的生物关联。