LLM2D

摘要

大规模语言模型如GPT的成功可归因于其高效预测序列中下一个标记的能力。然而，这些模型无论预测的标记复杂度如何，都依赖于恒定的计算量，缺乏迭代优化的能力。本文提出了一种新型循环残差神经网络，通过利用更长的计算时间而不增加模型规模，实现了更好的性能。我们的方法通过多次重访输入，利用残差连接迭代循环模型的子集来优化预测。通过与GPT-2版本的实验对比，我们展示了这种方法在语言建模任务中的有效性，同时保持了相似的参数数量。重要的是，这些改进无需额外的训练数据即可实现。