LLM2D

摘要

我们评估了预训练图 Transformer 架构对原子级量子力学特征的影响，用于模拟药物样化合物的吸收、分布、代谢、排泄和毒性（ADMET）特性。我们将此预训练策略与其他两种策略进行比较：一种基于分子量子特性（特别是 HOMO-LUMO 间隙），另一种使用自监督原子掩蔽技术。在对治疗数据公共 ADMET 数据集进行微调后，我们评估了不同模型的性能改进，观察到使用原子量子力学特性预训练的模型通常会产生更好的结果。然后，我们分析了潜在表示，并观察到监督策略在微调后保留了预训练信息，并且不同的预训练在各层的潜在表达能力方面产生了不同的趋势。此外，我们发现使用原子量子力学特性预训练的模型通过注意力权重捕获了输入图的更多低频拉普拉斯特征模态，并产生了更好的分子内原子环境表示。将分析应用于更大的非公开微粒体清除数据集，说明了所研究指标的通用性。在这种情况下，模型的性能与表示分析一致，并突出显示，尤其是对于掩蔽预训练和原子级量子特性预训练，具有相似公共基准性能的模型类型在大型制药数据上的性能可能会有所不同。