LLM2D

摘要

生成流网络 (GFlowNets) 是一种新颖的生成模型，旨在从非归一化分布中采样，并在各种重要任务中得到应用，其训练算法引起了极大的研究兴趣。通常，GFlowNets 通过将正向流拟合到采样训练对象上的反向流来进行训练。先前的工作集中在训练对象的选取、参数化、采样和重采样策略以及反向策略上，旨在增强训练过程中的信用分配、探索或利用。然而，回归损失的选择却被忽视，而回归损失可以极大地影响训练中策略的探索和利用行为。由于缺乏对选择适当回归损失的理论理解，大多数现有算法通过最小化对数空间中正向流和反向流的平方误差来训练流网络，即使用二次回归损失。在这项工作中，我们严格证明了不同的回归损失对应于特定的散度度量，使我们能够根据所需散度度量的特性设计和分析回归损失。具体来说，我们检查了两个关键属性：零强制和零回避，前者促进利用和更高的奖励，而后者鼓励探索并增强多样性。基于我们的理论框架，我们提出了三种新的回归损失，即移位双曲余弦、Linex(1/2) 和 Linex(1)。我们在三个基准上对它们进行了评估：超网格、比特序列生成和分子生成。我们提出的损失与大多数现有的训练算法兼容，并且在收敛速度、样本多样性和鲁棒性方面显著提高了算法的性能。