LLM2D
循环残差神经网络在迭代优化中的应用
Loop-Residual Neural Networks for Iterative Refinement
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14199v1

摘要

大规模语言模型如GPT的成功可归因于其高效预测序列中下一个标记的能力。然而,这些模型无论预测的标记复杂度如何,都依赖于恒定的计算量,缺乏迭代优化的能力。本文提出了一种新型循环残差神经网络,通过利用更长的计算时间而不增加模型规模,实现了更好的性能。我们的方法通过多次重访输入,利用残差连接迭代循环模型的子集来优化预测。通过与GPT-2版本的实验对比,我们展示了这种方法在语言建模任务中的有效性,同时保持了相似的参数数量。重要的是,这些改进无需额外的训练数据即可实现。