摘要
arXiv:2505.01855v1 交叉类型: cross
摘要: 转换器模型在自然语言处理领域建立了新的基准;然而,其逐渐增加的深度导致参数数量显著增长。尽管现有的递归转换器方法通过多次重新处理层来解决这一问题,但它们往往在整个层块中不分青红皂白地应用递归。在本工作中,我们研究了层内递归(ILR),这是一种更精确的方法,可以在单一前向传播过程中有选择地将递归应用于各个层。我们的实验表明,将更多的迭代分配给较早的层可以得到最佳结果。这些发现表明,ILR 提供了一个有前途的方向,用于优化转换器架构中的递归结构。