摘要
arXiv:2502.01184v1 公告类型: cross
摘要:分子性质预测利用分子结构来推断化学性质。具有化学可解释性的表示能够捕捉有意义的分子内相互作用,从而增强这些预测的实用性和有效性。然而,现有方法通常依赖于基于原子或基于规则的片段标记化,这在化学上可能不够优化,并且缺乏可扩展性。我们引入了 FragmentNet,这是一种带有自适应学习标记化的图形到序列基础模型,能够在保持结构连接性的同时将分子图分解为化学有效片段。FragmentNet 结合了 VQVAE-GCN 进行分层片段嵌入、空间位置嵌入使图形序列化、全局分子描述符以及变压器。通过掩码片段建模预训练并在 MoleculeNet 任务上微调,FragmentNet 在具有相似规模的架构和数据集的同时,超越了其他模型,并且在资源需求显著减少的情况下与更大规模的先进模型相当。这种新的框架使分子图的自适应分解、排序和重建成为可能,促进了基于片段的编辑和在学习嵌入中属性趋势的可视化——这对于分子设计和优化来说是一个强有力的工具。