LLM2D
基于大型语言模型的熵增强规划在药物发现中的应用
Entropy-Reinforced Planning with Large Language Models for Drug Discovery
作者: Xuefeng Liu, Chih-chan Tien, Peng Ding, Songhao Jiang, Rick L. Stevens
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2406.07025v2

摘要

arXiv:2406.07025v2 通报类型: replace-cross 摘要: 药物发现的目标是识别具有特定药理性质的化学化合物,这些化合物能够与特定的结合靶点相结合。现有的大型语言模型(LLMs)在分子生成方面可以实现高概率的令牌匹配得分。然而,仅仅依赖于LLM解码往往会生成由于单个令牌误用而导致无效的分子,或者由于LLM先前经验导致的探索与利用不平衡而导致的次优分子。在这里,我们提出了一种名为ERP(Entropy-Reinforced Planning for Transformer Decoding)的方法,该方法使用熵增强的规划算法来增强变压器解码过程,并在探索与利用之间取得平衡。ERP旨在在多个属性上优于直接从变压器中采样的方法。我们在SARS-CoV-2病毒(3CLPro)和人类癌细胞靶蛋白(RTCB)基准上评估了ERP,并证明在两个基准中,ERP分别比当前最先进的算法提高了1-5个百分点,比基线提高了5-10个百分点。此外,这种改进在使用不同目标训练的变压器模型中是稳健的。最后,为了进一步展示ERP的能力,我们在三个代码生成基准上测试了我们的算法,也优于当前最先进的方法。我们的代码可在以下地址公开获取:https://github.com/xuefeng-cs/ERP。