LLM2D

摘要

arXiv:2504.07156v1 交叉公告类型摘要：蛋白质语言模型（PLMs）通过其生成多样预测任务的强大序列表示的能力，彻底变革了计算生物学。然而，它们的黑箱性质限制了生物解释和转化为可操作的洞察。我们提出了一个可解释的适配器层——PLM-eXplain（PLM-X），该层通过将PLM嵌入分解为两个组成部分来填补这一差距：基于已建立的生物化学特征的可解释子空间和保持模型预测能力的残留子空间。使用ESM2的嵌入，我们的适配器集成了已广泛认可的性质，包括二级结构和疏水性，同时保持了高性能。我们在三个蛋白质级别分类任务中展示了我们方法的有效性：细胞外囊泡关联的预测、跨膜螺旋的识别以及聚集倾向的预测。PLM-X在不牺牲准确性的情况下，使模型决策具有生物解释性，提供了一种在各种下游应用中增强PLM解释性的通用解决方案。本文通过提供一种连接强大深度学习模型与可操作生物洞察的桥梁，解决了计算生物学中的一项关键需求。