LLM2D

摘要

arXiv:2502.03490v1 声明类型：新的摘要：先前的工作发现，变压器在学习回答隐含的两跳问题方面存在不一致的能力——这类问题的形式为“鲍勃的母亲的上司是谁？”我们通过研究变压器在其大小随着其容量而变化时，学习两跳问题及其答案（两跳问答）的能力，来探讨为什么会出现这种情况，这受到了关于变压器知识容量的先前工作的影响，这些工作研究了简单事实记忆的情况。我们发现，容量的扩展和泛化都支持这样一个观点：隐含的两跳问答要求变压器需要学习每个事实两次，而具备推理过程的两跳问答则不需要。我们还表明，在适当的数据集参数下，即使模型很小，仍有可能将其“困”在一个它们独立地记忆两跳问题答案的阶段，即使它们能够通过函数组合来学习这些问题会表现得更好。我们的发现表明，容量扩展的测量可以补充现有的可解释性方法，尽管将其用于这一目的还存在一些挑战。