摘要
arXiv:2505.05577v1 Announce Type: 集成交叉
摘要:现有的生物医学基准并没有提供从训练、评估到多模态生物数据和广泛药物学机器学习任务推断的端到端基础设施。我们提出了PyTDC,这是一个开源的机器学习平台,提供了多模态生物AI模型的简化训练、评估和推断软件。PyTDC 统一了分布式、异构且不断更新的数据来源和模型权重,并标准化了基准测试和推断端点。本文讨论了PyTDC架构的组成部分,并且据我们所知,首次介绍了引入的单细胞药物靶点提名机器学习任务的案例研究。我们发现,图表示学习的先进方法和图论特定领域的技术在该任务上表现欠佳。尽管我们发现了一种语境感知的几何深度学习方法,其表现优于评估的先进和特定领域的基线方法,但该模型无法对未见过的细胞类型进行泛化或整合额外的模态,这突显了PyTDC促进开发多模态、语境感知的基石模型以解决生物医学AI领域开放问题的巨大潜力。