摘要
arXiv:2503.24305v2 Announce Type: replace-cross
摘要:小分子在生物医学、环境和农化领域中扮演着关键角色,每个领域都有独特的物理化学要求和成功标准。尽管生物医学研究得益于大量数据集和成熟的基准测试,但农化数据仍然稀缺,特别是在物种特异性毒性的方面。这项工作重点关注ApisTox,这是迄今最全面的实验验证的化学毒性数据库,涉及对蜜蜂(Apis mellifera)的毒性,蜜蜂是生态上至关重要的传粉者。我们使用多种机器学习方法来评估ApisTox,包括分子指纹、图核和图神经网络,以及预训练模型。与MoleculeNet基准测试中的医学数据集的比较分析表明,ApisTox代表了一种独特的化学空间。在非医学数据集,如ApisTox上的性能下降表明,当前仅在生物医学数据上训练的最先进的算法的泛化能力有限。我们的研究强调了需要更多样化的数据集,并且针对农化领域的目标模型开发的需求。