摘要
神经网络解决算法任务的能力,例如算术、汇总统计和排序,引起了越来越多的关注。虽然像 Transformer 这样的最先进模型在分布内任务上表现出良好的泛化性能,但它们在端到端训练时,其分布外(OOD)性能很差。本文重点关注值泛化,这是 OOD 泛化的一种常见情况,其中测试分布与训练分布具有相同的输入序列长度,但训练和测试分布中的值范围不一定重叠。为了解决这个问题,我们提出使用固定位置编码来确定注意力权重——称为位置注意力——可以增强经验 OOD 性能,同时保持表达能力。我们通过证明具有位置注意力的 Transformer 可以有效地模拟并行算法来支持我们关于表达能力的论点。