LLM2D

摘要

为许多科学领域（如药物发现和材料科学）提供可解释的分子性质预测至关重要。尽管基于 Transformer 的语言模型在准确预测分子性质方面展现出巨大潜力，但它们既没有提供化学意义上的解释，也没有忠实地揭示分子结构与性质之间的关系。在这项工作中，我们开发了一个基于语言模型的可解释分子性质预测框架，称为 Lamole，它可以提供与化学概念一致的解释。我们将基于字符串的分子表示——Group SELFIES——作为输入令牌来预训练和微调我们的 Lamole，因为它提供了化学意义上的语义。通过解开 Lamole 的信息流，我们建议将自注意力权重和梯度结合起来，以更好地量化每个化学意义上的子结构对模型输出的影响。为了使解释更忠实地尊重结构-性质关系，我们随后精心设计了一个边缘损失，以明确优化解释，使其能够与化学家的注释保持一致。我们将流形假设与精心设计的边缘损失联系起来，以证明该损失可以将解释与数据流形的切空间对齐，从而产生与概念一致的解释。对六个致突变数据集和一个肝毒性数据集的实验结果表明，Lamole 可以实现相当的分类精度，并将解释精度提高高达 14.3%，成为可解释分子性质预测领域的最先进技术。