摘要
arXiv:2504.03635v1 通知类型: 新
摘要: 大型语言模型(LLMs)在广泛的任务中展示了出色的能力,这些任务需要复杂的推理。然而,规模对其推理能力的影响仍然不够理解。在本文中,我们介绍了一个合成的多跳推理环境,旨在紧密复制现实世界大规模知识图谱的结构和分布。我们的推理任务涉及补全图中的缺失边,这需要高级的多跳推理,并模仿现实世界中的推理场景。为了评估这一点,我们从不完整的图的三元组中从头开始预训练语言模型(LMs),并评估它们推断缺失边的能力。有趣的是,我们发现过度参数化可能会因为过度记忆而损害推理性能。我们研究了影响这一U形损失曲线的不同因素,包括图结构、模型大小和训练步数。为了预测特定知识图谱的最优模型大小,我们发现了一种经验上可行的平滑,它线性地将知识图谱搜索熵映射到最优模型大小。本文提供了有关 LLMs 中规模与推理之间关系的新见解,揭示了可能优化其推理任务性能的方法。