摘要
本研究提出了一种基于Transformer的简单基线方法,用于多模态分子表示学习,该方法整合了三种不同的模态:SMILES字符串、2D图表示和3D分子构象。我们的方法的关键在于对3D构象的聚合,使模型能够考虑分子可以采用多种构象这一事实,这对准确的分子表示至关重要。每种模态的token通过特定模态的编码器提取:Transformer用于SMILES字符串,消息传递神经网络用于2D图,等变神经网络用于3D构象。该框架的灵活性和模块化特性使得这些编码器能够轻松地适应和替换,从而使模型能够高度灵活地适应不同的分子任务。提取的token随后被组合成一个统一的多模态序列,该序列由下游Transformer处理以进行预测任务。为了有效地扩展我们的模型以处理大型多模态数据集,我们使用了Flash Attention 2和bfloat16精度。尽管方法简单,但我们的方法在多个数据集上都取得了最先进的结果,证明了其作为多模态分子表示学习的强大基线的有效性。