LLM2D
Transformer 何时才能数到 n?
When Can Transformers Count to n?
作者: Gilad Yehudai, Haim Kaplan, Asma Ghandeharioun, Mor Geva, Amir Globerson
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2407.15160v2

摘要

基于Transformer架构的大型语言模型能够解决高度复杂的任务。但这些模型是否无法解决一些简单的任务呢?本文关注的是非常简单的计数任务,即统计词汇表中某个词语在一串文本中出现的次数。我们表明,如果Transformer状态的维度与上下文长度呈线性关系,则可以解决此任务。然而,我们提出的解决方案无法超越此限制,并且我们从理论上论证了为什么尺寸受限的Transformer可能无法实现此任务。我们的实证结果表明,与理论论证相符,性能出现了相同的相变。我们的结果表明,理解Transformer如何解决简单任务至关重要。