LLM2D

摘要

arXiv:2502.11569v1 声明类型: cross 摘要: 推理长期以来被认为是大型语言模型（LLMs）的一个新兴属性，出现在或高于某个规模（约1000亿个参数）的现象。然而，最新的研究表明，这一假设受到挑战，显示小型语言模型（SLMs）也能达到竞争性的推理性能。SLMs因其效率和部署性而受到越来越多的青睐。然而，关于各种SLMs的推理能力还没有系统的研究，包括那些从头训练的或通过量化、剪枝和蒸馏从LLMs衍生出来的模型。这提出了一个关键问题：SLMs能否达到与LLMs相当的推理能力？在这项工作中，我们系统地调研、基准测试并分析了六大家族共72个SLMs在14个推理基准上的表现。为了实现可靠的评估，我们检查了四种评估方法，并将四个LLM裁判员与人工评估在800个数据点上进行比较。我们对所有实验重复进行了三次，以确保稳健的性能评估。此外，我们还分析了小型模型中不同提示策略的影响。除了准确性之外，我们还在对抗条件和中间推理步骤下评估了模型的鲁棒性。我们的发现挑战了规模是实现强大推理的唯一途径的假设。相反，我们认为通过结构化的训练或后训练压缩可以获得具有强大推理能力的SLMs。它们可以作为推理密集型任务中LLMs的有效替代方案。