LLM2D

摘要

我们提出了一种名为“拉回流匹配”（PFM）的新框架，用于数据流形上的生成式建模。与现有方法不同，现有方法假设或学习限制性的封闭形式流形映射来训练黎曼流匹配（RFM）模型，PFM 利用拉回几何和等距学习来保留底层流形的几何形状，同时允许在潜在空间中进行高效的生成和精确的插值。这种方法不仅促进了数据流形上的封闭形式映射，而且还允许使用数据和潜在流形上的假设度量来设计潜在空间。通过使用神经 ODE 增强等距学习并提出一个可扩展的训练目标，我们获得了一个更适合插值的潜在空间，从而提高了流形学习和生成性能。我们通过合成数据、蛋白质动力学和蛋白质序列数据的应用证明了 PFM 的有效性，生成了具有特定性质的新蛋白质。这种方法在药物发现和材料科学领域显示出巨大的潜力，在这些领域，生成具有特定性质的新样本非常重要。