LLM2D

摘要

arXiv:2504.20752v1 类型: cross 摘要：Transformer 在众多自然语言处理任务中取得了巨大成功，但在多步事实推理方面依然表现出显著的不足，尤其是在现实世界知识稀少的情况下。最近关于“grokking”的进展表明，神经网络在检测到潜在逻辑模式之后，可以从记忆过渡到完全泛化——然而，这些研究主要使用的是小型合成任务。在本文中，我们首次将“grokking”扩展到现实世界的事实数据，并通过精心设计合成数据增强现有的知识图谱，以提高推断的事实与基础事实比率 $\phi_r$，使其超过实现“grokking”的阈值。令人惊讶的是，我们发现即使使用事实错误的合成数据，也能加强新兴的推理电路，而不是降低准确性，因为它迫使模型依赖于关系结构而非记忆。在多跳推理基准测试中，我们的方法在2WikiMultiHopQA 上达到了高达95-100% 的准确性，显著超过了强大的基线方法，并与当前最先进的结果相当或超过。我们进一步深入分析了如何增加 $\phi_r$ 促进 Transformer 内部泛化电路的形成。我们的发现表明，基于“grokking”的数据增强可以解锁隐式的多跳推理能力，为大型语言模型中更强大和可解释的事实推理开启了大门。