LLM2D

摘要

arXiv:2502.01184v1 公告类型: cross 摘要：分子性质预测利用分子结构来推断化学性质。具有化学可解释性的表示能够捕捉有意义的分子内相互作用，从而增强这些预测的实用性和有效性。然而，现有方法通常依赖于基于原子或基于规则的片段标记化，这在化学上可能不够优化，并且缺乏可扩展性。我们引入了 FragmentNet，这是一种带有自适应学习标记化的图形到序列基础模型，能够在保持结构连接性的同时将分子图分解为化学有效片段。FragmentNet 结合了 VQVAE-GCN 进行分层片段嵌入、空间位置嵌入使图形序列化、全局分子描述符以及变压器。通过掩码片段建模预训练并在 MoleculeNet 任务上微调，FragmentNet 在具有相似规模的架构和数据集的同时，超越了其他模型，并且在资源需求显著减少的情况下与更大规模的先进模型相当。这种新的框架使分子图的自适应分解、排序和重建成为可能，促进了基于片段的编辑和在学习嵌入中属性趋势的可视化——这对于分子设计和优化来说是一个强有力的工具。