摘要
arXiv:2504.00424v1 宣告类型:新
摘要:链式思维(CoT,Chain-of-Thought)推理在增强大型语言模型(LLMs,Large Language Models)的推理能力方面表现出了显著的效果。然而,由于生成过多的中间推理标记,其效率仍然面临挑战,这些标记引入了语义冗余和过于详细的推理步骤。另外,计算成本和延迟也是重大问题,因为成本随着输出标记的数量(包括中间步骤)而增加。在本文中,我们观察到大多数CoT标记是不必要的,保留其中一小部分已经足以生成高质量的响应。受此启发,我们提出了HAWKEYE,一种新的后训练及推理框架,其中大型模型生成简洁的CoT指令,指导小型模型进行响应生成。HAWKEYE 通过强化学习量化CoT推理中的冗余,并通过蒸馏提取高密度信息。利用这些简洁的CoTs,HAWKEYE 能够在显著减少标记使用和计算成本的同时扩展响应。我们的评估显示,HAWKEYE 可以仅使用全量CoTs的35% 就达到相当的响应质量,同时使清晰度、连贯性和简洁性分别提高约10%。此外,HAWKEYE 在复杂数学任务中可以将端到端推理速度加速3.4倍,同时将推理成本降低高达60%。HAWKEYE 将开源,模型将在不久的将来可用。