LLM2D
Home
Arxiv
返回列表
一种加速Transformer训练的多级方法
A multilevel approach to accelerate the training of Transformers
发布日期:
4/29/2025
arXiv ID:
oai:arXiv.org:2504.18590v1
摘要
arXiv:2504.18590v1 交叉类型:跨领域 摘要:在这篇文章中,我们探讨了多级方法在加速变压器架构训练方面的潜力。通过这些架构的常微分方程(ODE)解释,我们提出了一种适当的方法,以改变这些ODE变压器的 discretization 来加速训练。我们通过与标准训练过程的比较进行实验验证。
查看原文
下载 PDF