LLM2D

摘要

可解释的分子性质预测对于药物发现和材料科学等多个科学领域至关重要。尽管线性模型具有内在的可解释性，但它们难以捕捉复杂的非线性模式。另一方面，大型语言模型 (LLM) 通过强大的推理能力产生准确的预测，但无法为其预测提供化学意义上的解释。这项工作提出了一种名为 MoleX 的新框架，该框架利用 LLM 知识构建一个简单但强大的线性模型，以实现具有忠实解释的准确分子性质预测。MoleX 的核心是使用一个简单的线性模型来模拟复杂的分子结构-性质关系，并通过 LLM 知识和精心设计的校准策略进行增强。具体来说，为了从 LLM 嵌入中提取最大量的与任务相关的知识，我们采用受信息瓶颈启发的微调和稀疏诱导降维。然后，这些信息丰富的嵌入用于拟合线性模型以进行可解释的推断。此外，我们引入了残差校准来解决线性模型对复杂的 LLM 嵌入表达不足导致的预测误差，从而恢复 LLM 的预测能力并提高整体准确性。从理论上讲，我们提供了数学基础来证明 MoleX 的可解释性。大量实验表明，MoleX 在分子性质预测方面优于现有方法，在预测性能、可解释性和效率方面树立了新的里程碑。特别是，MoleX 支持 CPU 推理并加速大规模数据集处理，在性能上比 LLM 快 300 倍，参数少 100,000 个。此外，校准将模型性能提高了 12.7%，而不会影响可解释性。