LLM2D
OT-Transformer:具有最优运输正则化的连续时间变压器架构
OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization
作者: Kelvin Kan, Xingjian Li, Stanley Osher
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18793v1

摘要

arXiv:2501.18793v1 类型: cross 摘要: 变压器已经在众多任务中实现了最先进的性能。在本文中,我们提出了一种变压器的连续时间形式化方法。具体而言,我们考虑一个动力系统,其主导方程由变压器块参数化。我们利用最优运输理论来正则化训练问题,这增强了训练的稳定性并提高了所得模型的泛化能力。此外,我们在理论上证明了这种正则化是必要的,因为它促进了解的唯一性和正则性。我们的模型具有灵活性,几乎可以采用任何现有的变压器架构来构建动力系统,只需对现有代码进行少量修改。我们在自然语言处理、图像分类和点云分类激励的任务上进行了大量的数值实验。我们的实验结果表明,所提出的方法改进了其离散版本,并优于相关比较模型。