LLM2D

摘要

生物标志物发现对于推动个性化医疗至关重要，它为疾病诊断、预后和治疗效果提供了见解。传统上，生物标志物的识别和验证高度依赖于大量实验和统计分析。这些方法耗时、需要广泛的领域专业知识，并且受到生物系统复杂性的限制。这些局限性促使我们提出问题：我们是否可以在没有大量人工努力的情况下自动识别有效的生物标志物子集？受生成式人工智能成功的启发，我们认为，生物标志物识别的复杂知识可以压缩到一个连续的嵌入空间中，从而增强对更好生物标志物的搜索。因此，我们提出了一种新的生物标志物识别框架，该框架包含两个重要模块：1）训练数据准备和 2）嵌入优化生成。第一个模块使用多智能体系统自动收集生物标志物子集及其对应预测精度的配对作为训练数据。这些数据为生物标志物识别建立了强大的知识库。第二个模块采用编码器-评估器-解码器学习范式，将收集数据的知识压缩到一个连续空间中。然后，它利用基于梯度的搜索技术和基于自回归的重建来有效地识别最佳生物标志物子集。最后，我们在三个真实世界数据集上进行了广泛的实验，以展示我们方法的效率、鲁棒性和有效性。