LLM2D

摘要

arXiv:2505.01855v1 交叉类型: cross 摘要: 转换器模型在自然语言处理领域建立了新的基准；然而，其逐渐增加的深度导致参数数量显著增长。尽管现有的递归转换器方法通过多次重新处理层来解决这一问题，但它们往往在整个层块中不分青红皂白地应用递归。在本工作中，我们研究了层内递归（ILR），这是一种更精确的方法，可以在单一前向传播过程中有选择地将递归应用于各个层。我们的实验表明，将更多的迭代分配给较早的层可以得到最佳结果。这些发现表明，ILR 提供了一个有前途的方向，用于优化转换器架构中的递归结构。