LLM2D

摘要

arXiv:2504.09858v1 宣告类型: 新摘要: 最近的大型语言模型（LLMs）在推理能力方面取得了显著的改进，主要是通过将明确的漫长推理过程纳入生成过程。在本文中，我们质疑这种明确的推理是否必要。使用最先进的DeepSeek-R1-Distill-Qwen，我们发现通过简单的提示绕过推理过程，称为NoThinking，效果出乎意料的好。在控制生成词元数量的情况下，NoThinking在七种具有挑战性的推理数据集中表现优于传统推理，尤其是在低预算设置中，例如在700词元的ACM 23数据集中，NoThinking的性能为51.3，而传统推理为28.9。值得注意的是，随着pass@k的增加，NoThinking的性能变得更加具有竞争力。基于这一观察，我们展示了通过使用NoThinking独立生成N个输出并进行聚合的方法非常有效。对于聚合，如果有任务特定的验证器，则使用特定任务的验证器；如果没有，则使用基于信心的简单最佳N策略，如基于置信度的选择。我们的方法在与传统推理具有相似延迟的基线模型中表现出色，并且其整体性能在显著更长延迟的情况下（最多9倍）与传统推理相当。总之，我们的研究鼓励重新考虑冗长推理过程的必要性，同时为在低预算设置或低延迟环境下通过并行扩展实现强大推理性能建立了竞争性参考。