摘要
arXiv:2502.06634v1 宣告类型: cross
摘要:近年来,生物研究中的人工智能发展集中在将分子数据与自然语言结合,以加快药物发现。然而,高质量标注数据的稀缺限制了该领域的进步。本文介绍了基于语言的自动标注增强框架LA$^3$,该框架利用大型语言模型增强现有数据集,从而提高人工智能的训练效果。我们通过系统地重构一个已建立数据集中的分子标注,创建了一个增强的数据集LaChEBI-20,这些重构的标注保留了分子的关键信息,同时还提供了更多的句法结构和词汇多样性。使用LaChEBI-20,我们基于基准架构训练了LaMolT5,以学习分子表示与增强标注之间的映射关系。
基于文本的全新分子生成和分子标注实验结果表明,LaMolT5优于最先进的模型。值得注意的是,整合LA$^3$使基准架构的表现提高了301%。此外,我们验证了LA$^3$在其在图像、文本和图任务中的有效应用,这进一步证明了其多样性和实用性。