LLM2D
当推理遇到压缩:在复杂推理任务中评估压缩的大规模推理模型
When Reasoning Meets Compression: Benchmarking Compressed Large Reasoning Models on Complex Reasoning Tasks
作者: Nan Zhang, Yusen Zhang, Prasenjit Mitra, Rui Zhang
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.02010v1

摘要

arXiv:2504.02010v1 类别: cross 摘要: 近期开源的大规模推理模型(LRMs)在复杂的推理任务上表现出强大的性能,但它们庞大的参数数量使得它们对个人来说代价高昂。大规模语言模型(LLMs)的压缩提供了降低计算资源成本的有效方案。然而,针对压缩LLMs在复杂推理任务上的表现,特别是针对LRMs的研究还很缺乏。大多数关于量化和剪枝的工作集中在保持语言模型性能上,而现有的精简工作并没有综合基准测试基于推理难度或压缩对知识和推理的影响的学生模型。在本文中,我们使用量化、精简和剪枝方法,在四种不同的推理数据集(AIME 2024、FOLIO、时序的大规模基准hard部分和MuSiQue)上基准测试了压缩的DeepSeek-R1模型,这些数据集涵盖了从数学到多跳推理的不同难度。我们基准测试了采用了动态量化方法的2.51比特、1.73比特和1.58比特的R1模型。我们还基准测试了基于LLaMA或Qwen的精简R1模型,并在它们上运行SparseGPT以获得各种稀疏程度。通过对压缩LRMs的性能和行为的研究,我们报告了它们的性能分数和测试时计算(每个问题所花费的令牌数)。值得注意的是,使用MuSiQue时,我们发现参数数量对LRMs的知识记忆影响远大于对其推理能力的影响,这可以指导压缩技术的选择。通过我们的测试时计算的实证分析,我们发现,较短的模型输出通常在R1及其压缩变体的各种基准测试中表现更佳,这突显了更精简的推理链的需求。