LLM2D

摘要

arXiv:2407.04620v3 宣告类型: replace-cross 摘要：自注意力在长上下文情况下表现良好，但其复杂度呈平方级增长。现有的RNN层具有线性复杂度，但在长上下文情况下，其性能受限于隐藏状态的表达能力。我们提出了一种实用的框架，用于实例化具有线性复杂度和表达性强的隐藏状态的序列建模层。关键的想法是将隐藏状态本身视作一个机器学习模型，并将更新规则视为自我监督学习中的一步。由于隐藏状态即使在测试序列上也被用于训练，因此我们将这些层称为测试时训练（TTT）层。我们考虑了两种实例化方法：TTT-Linear和TTT-MLP，其中隐藏状态分别是一个线性模型和一个两层MLP。我们在参数量从125M到1.3B的范围内评估了我们的实现，并将其与一个强大的Transformer和现代的RNN——Mamba进行了比较。与Transformer类似，TTT-Linear和TTT-MLP可以通过对更多令牌进行条件处理来持续降低困惑度，而Mamba在16k上下文后无法继续改进。虽然TTT-MLP在内存I/O方面仍存在挑战，但它在长上下文方面展示了更大的潜力，这暗示了未来研究的一个有希望的方向。