摘要
arXiv:2407.04841v2 通知类型: 替换-交叉
摘要:本文解决了为非常长的序列创建需要每个时间步骤处理新信息所需时间恒定的神经架构的挑战。我们的方法,关联循环记忆变换器(ARMT),基于变换器自我注意力处理局部上下文,并通过在长上下文中存储特定任务信息的段级循环来实现信息的存储。我们证明,ARMT 在关联检索任务中优于现有替代方案,并在最近的BABILong 多任务长上下文基准测试中取得了新的性能记录,通过回答包含超过 5000 万词元的单一事实问题,准确率为 79.9%。训练和评估的源代码可在 Github 上获得。