LLM2D
Transformer 中的层内 recurrence 语言建模
Intra-Layer Recurrence in Transformers for Language Modeling
作者: Anthony Nguyen, Wenjun Lin
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01855v1

摘要

arXiv:2505.01855v1 交叉类型: cross 摘要: 转换器模型在自然语言处理领域建立了新的基准;然而,其逐渐增加的深度导致参数数量显著增长。尽管现有的递归转换器方法通过多次重新处理层来解决这一问题,但它们往往在整个层块中不分青红皂白地应用递归。在本工作中,我们研究了层内递归(ILR),这是一种更精确的方法,可以在单一前向传播过程中有选择地将递归应用于各个层。我们的实验表明,将更多的迭代分配给较早的层可以得到最佳结果。这些发现表明,ILR 提供了一个有前途的方向,用于优化转换器架构中的递归结构。