LLM2D

摘要

神经网络解决算法任务的能力，例如算术、汇总统计和排序，引起了越来越多的关注。虽然像 Transformer 这样的最先进模型在分布内任务上表现出良好的泛化性能，但它们在端到端训练时，其分布外（OOD）性能很差。本文重点关注值泛化，这是 OOD 泛化的一种常见情况，其中测试分布与训练分布具有相同的输入序列长度，但训练和测试分布中的值范围不一定重叠。为了解决这个问题，我们提出使用固定位置编码来确定注意力权重——称为位置注意力——可以增强经验 OOD 性能，同时保持表达能力。我们通过证明具有位置注意力的 Transformer 可以有效地模拟并行算法来支持我们关于表达能力的论点。