摘要
arXiv:2504.04718v1 Announce Type: cross
摘要:最近的研究表明,测试时计算缩放有效提高了小型语言模型(sLMs)的性能。然而,先前的研究主要关注使用附加较大的模型作为验证者进行测试时计算缩放,而小型语言模型的自我验证则尚未得到充分探索。在这项工作中,我们探讨了小型语言模型在测试时缩放下是否能够可靠地自我验证其输出。我们发现,即使有较大验证者的知识蒸馏,小型语言模型在要求记忆的任务上进行验证仍然存在困难,比如数值计算和事实核查。为了解决这一局限性,我们提出了工具集成自我验证(T1),将记忆密集型验证步骤委托给外部工具,如代码解释器。我们的理论分析表明,工具集成减少了记忆需求并提高了测试时计算缩放性能。在MATH基准上的实验表明,通过T1,一个Llama-3.2 1B模型在测试时缩放下的表现优于显著更大的Llama-3.1 8B模型。此外,T1在数学(MATH500)和多领域知识密集型任务(MMLU-Pro)上都表现出良好的泛化能力。我们的发现强调了工具集成对大幅提升小型语言模型自我验证能力的潜在价值。