LLM2D
基于机器学习的肝细胞癌早期诊断多组学数据整合
Multi-omics data integration for early diagnosis of hepatocellular carcinoma (HCC) using machine learning
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13791v1

摘要

不同模态患者数据中的互补信息有助于更准确地建模患者的疾病状态,并更好地理解疾病的潜在生物学过程。然而,多模态、多组学数据的分析面临许多挑战,包括高维度、不同模态间大小、统计分布、尺度及信号强度的差异。本文比较了多种能够进行晚期整合的多类数据集成机器学习算法的性能。测试的集成方法及其变体包括:i) 投票集成,包括硬投票和软投票;ii) 元学习器;iii) 多模态Adaboost模型,使用硬投票、软投票和元学习器在每次提升回合中整合模态,PB-MVBoost模型以及专家混合模型的新应用。这些方法与简单的连接作为基线进行了比较。我们使用肝细胞癌(HCC)的内部研究数据以及乳腺癌和肠易激综合征(IBD)的四项验证研究数据来评估这些方法。通过接收者操作特征曲线下面积(AUC)作为性能指标,我们开发了性能值高达0.85的模型,并发现两种提升方法,即PB-MVBoost和软投票Adaboost,是整体表现最佳的模型。我们还考察了所选特征的稳定性以及确定的临床特征的大小。最后,我们为多模态多类数据的整合提供了建议。