摘要
arXiv:2501.18793v1 类型: cross
摘要: 变压器已经在众多任务中实现了最先进的性能。在本文中,我们提出了一种变压器的连续时间形式化方法。具体而言,我们考虑一个动力系统,其主导方程由变压器块参数化。我们利用最优运输理论来正则化训练问题,这增强了训练的稳定性并提高了所得模型的泛化能力。此外,我们在理论上证明了这种正则化是必要的,因为它促进了解的唯一性和正则性。我们的模型具有灵活性,几乎可以采用任何现有的变压器架构来构建动力系统,只需对现有代码进行少量修改。我们在自然语言处理、图像分类和点云分类激励的任务上进行了大量的数值实验。我们的实验结果表明,所提出的方法改进了其离散版本,并优于相关比较模型。