LLM2D

摘要

arXiv:2502.12453v1 Announce Type: cross 摘要：药物发现对于识别各种疾病的候选药物至关重要。然而，其较低的成功率往往导致标注数据稀缺，从而引发少量样本学习问题。现有的方法主要集中在单尺度特征上，忽视了决定分子不同性质的分层分子结构。为了解决这些问题，我们引入了通用匹配网络（UniMatch），这是一种结合显式分层分子匹配和隐式任务级匹配的双匹配框架，通过元学习将多级分子表示与任务级泛化连接起来。具体而言，我们的方法通过分层池化和匹配显式捕捉多级结构特征，如原子、亚结构和分子，从而实现精确的分子表示和比较。此外，我们采用元学习策略进行隐式任务级匹配，使模型能够捕获跨任务的共享模式，并快速适应新的任务。这种统一的匹配框架确保了有效的分子对齐，同时利用共享元知识实现快速适应。我们在MoleculeNet和FS-Mol基准测试中的实验结果表明，UniMatch超越了现有最先进的方法，在AUROC上提高了2.87%，在delta AUPRC上提高了6.52%。此外，UniMatch在Meta-MolNet基准测试中也显示出出色的泛化能力。