LLM2D
通过能量排名对齐实现连续反馈Transformer对齐
Aligning Transformers with Continuous Feedback via Energy Rank Alignment
作者: Shriram Chennakesavalu, Frank Hu, Sebastian Ibarraran, Grant M. Rotskoff
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2405.12961v2

摘要

arXiv:2405.12961v2 宣布类型: replace-cross 摘要:在化学空间中进行搜索是一个极其具有挑战性的问题,因为可能的分子数量随着原子数量的增加呈组合性增长。大型自回归模型在化学化合物数据库上训练后产生了强大的生成器,但我们仍然缺乏生成具有所需性质分子的稳健策略。这个问题在很大程度上类似于大型语言模型的“对齐”问题,尽管对于许多化学任务,我们都有一个具体且易于评估的回报函数。在这里,我们提出了一种称为能量排名对齐(ERA)的算法,该算法利用显式的回报函数产生基于梯度的目标,我们使用该目标来优化自回归策略。我们理论上证明,该算法与近邻策略优化(PPO)和直接偏好优化(DPO)密切相关,但其实现的优化器收敛于理想中的Gibbs-Boltzmann分布,其中回报扮演着能量函数的角色。此外,该算法具有很高的可扩展性,不需要强化学习,并且在每次配对的偏好观测数量较小时的表现优于DPO。我们使用该方法来对齐分子变换器和蛋白质语言模型,分别生成具有外部指定特性的分子序列和蛋白质序列,并发现它能够稳健地进行搜索,探索化学空间中的多样化区域。