LLM2D

摘要

arXiv:2502.14382v1 对话类型：跨域摘要：增加LLM的测试时计算量在各个领域都显示出前景，但在代码生成方面仍然未得到充分探索，尽管在数学方面进行了广泛的研究。在本文中，我们提出了S*，这是第一个混合测试时缩放框架，显著提高了生成代码的覆盖率和选择准确性。S*通过结合顺序缩放扩展了现有的并行缩放范式，以推动性能边界。它进一步利用了一种新颖的选择机制，该机制能够自适应地为成对比较生成区分性输入，并结合执行导向的信息以稳健地识别正确解。我们在12个大型语言模型和大型推理模型上进行了评估，显示：(1) S*在不同模型家族和规模上一致地提高了性能，使3B模型能够优于GPT-4o-mini；(2) S*使非推理模型超越了推理模型——使用S*的GPT-4o-mini在LiveCodeBench上比o1-preview高出3.7%；(3) S*进一步提高了最先进的推理模型——使用S*的DeepSeek-R1-Distill-Qwen-32B在LiveCodeBench上取得了85.7%的成绩，接近o1 (高)的88.5%。代码可在https://github.com/NovaSky-AI/SkyThought 下获得。