摘要
为许多科学领域(如药物发现和材料科学)提供可解释的分子性质预测至关重要。尽管基于 Transformer 的语言模型在准确预测分子性质方面展现出巨大潜力,但它们既没有提供化学意义上的解释,也没有忠实地揭示分子结构与性质之间的关系。在这项工作中,我们开发了一个基于语言模型的可解释分子性质预测框架,称为 Lamole,它可以提供与化学概念一致的解释。我们将基于字符串的分子表示——Group SELFIES——作为输入令牌来预训练和微调我们的 Lamole,因为它提供了化学意义上的语义。通过解开 Lamole 的信息流,我们建议将自注意力权重和梯度结合起来,以更好地量化每个化学意义上的子结构对模型输出的影响。为了使解释更忠实地尊重结构-性质关系,我们随后精心设计了一个边缘损失,以明确优化解释,使其能够与化学家的注释保持一致。我们将流形假设与精心设计的边缘损失联系起来,以证明该损失可以将解释与数据流形的切空间对齐,从而产生与概念一致的解释。对六个致突变数据集和一个肝毒性数据集的实验结果表明,Lamole 可以实现相当的分类精度,并将解释精度提高高达 14.3%,成为可解释分子性质预测领域的最先进技术。