LLM2D
计数过程中注意力头是竞争还是合作?
Do Attention Heads Compete or Cooperate during Counting?
作者: P\'al Zs\'amboki, \'Ad\'am Frakn\'oi, M\'at\'e Gedeon, Andr\'as Kornai, Zsolt Zombori
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.06923v1

摘要

arXiv:2502.06923v1 类别:交叉学科 摘要:我们对在基本任务计数上训练小型变压器进行了一项深入的机制可解释性分析,计数是许多算法中一个至关重要的演绎步骤。特别地,我们调查了注意力头之间的协作/竞争:我们探讨了注意力头是作为伪集成体运作,各自解决同一子任务,还是执行不同的子任务,这意味着它们只能联合解决原始任务。我们的研究结果表明,在计数任务的语义上,注意力头表现出伪集成体的行为,但为了创建符合句法的编码,它们的输出需要以非均匀的方式进行聚合。我们的源代码将在发表后提供。