LLM2D

摘要

arXiv:2505.10120v1 类别: cross 摘要: 将基于规则的模型如随机森林注入可微神经网络框架仍然是机器学习中的一个开放挑战。近期的进步表明，预训练模型可以生成高效的分子嵌入。然而，这些方法通常需要大量的预训练以及额外的技术，如结合后验概率，来提升性能。在我们的研究中，我们提出了一种新的策略，联合训练一个单一的图变换器神经网络，用于同时处理稀疏的多任务分子属性实验目标和从使用Osmordred分子描述符训练的XGBoost模型派生的合成目标。这些合成任务作为独立的辅助任务。我们的结果表明，在所有19个分子属性预测任务中均实现了一致且显著的性能提升。在19个目标中的16个上，多任务图变换器超越了单任务的XGBoost学习器。这表明，合成任务增强是提高多任务分子属性预测中神经网络模型性能的有效方法，而无需注入特征或预训练。