LLM2D

摘要

arXiv:2405.12961v2 宣布类型: replace-cross 摘要：在化学空间中进行搜索是一个极其具有挑战性的问题，因为可能的分子数量随着原子数量的增加呈组合性增长。大型自回归模型在化学化合物数据库上训练后产生了强大的生成器，但我们仍然缺乏生成具有所需性质分子的稳健策略。这个问题在很大程度上类似于大型语言模型的“对齐”问题，尽管对于许多化学任务，我们都有一个具体且易于评估的回报函数。在这里，我们提出了一种称为能量排名对齐（ERA）的算法，该算法利用显式的回报函数产生基于梯度的目标，我们使用该目标来优化自回归策略。我们理论上证明，该算法与近邻策略优化（PPO）和直接偏好优化（DPO）密切相关，但其实现的优化器收敛于理想中的Gibbs-Boltzmann分布，其中回报扮演着能量函数的角色。此外，该算法具有很高的可扩展性，不需要强化学习，并且在每次配对的偏好观测数量较小时的表现优于DPO。我们使用该方法来对齐分子变换器和蛋白质语言模型，分别生成具有外部指定特性的分子序列和蛋白质序列，并发现它能够稳健地进行搜索，探索化学空间中的多样化区域。