LLM2D

摘要

arXiv:2502.06634v1 宣告类型: cross 摘要：近年来，生物研究中的人工智能发展集中在将分子数据与自然语言结合，以加快药物发现。然而，高质量标注数据的稀缺限制了该领域的进步。本文介绍了基于语言的自动标注增强框架LA$^3$，该框架利用大型语言模型增强现有数据集，从而提高人工智能的训练效果。我们通过系统地重构一个已建立数据集中的分子标注，创建了一个增强的数据集LaChEBI-20，这些重构的标注保留了分子的关键信息，同时还提供了更多的句法结构和词汇多样性。使用LaChEBI-20，我们基于基准架构训练了LaMolT5，以学习分子表示与增强标注之间的映射关系。基于文本的全新分子生成和分子标注实验结果表明，LaMolT5优于最先进的模型。值得注意的是，整合LA$^3$使基准架构的表现提高了301%。此外，我们验证了LA$^3$在其在图像、文本和图任务中的有效应用，这进一步证明了其多样性和实用性。