LLM2D
S*: 测试时缩放用于代码生成
S*: Test Time Scaling for Code Generation
作者: Dacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14382v1

摘要

arXiv:2502.14382v1 对话类型:跨域 摘要:增加LLM的测试时计算量在各个领域都显示出前景,但在代码生成方面仍然未得到充分探索,尽管在数学方面进行了广泛的研究。在本文中,我们提出了S*,这是第一个混合测试时缩放框架,显著提高了生成代码的覆盖率和选择准确性。S*通过结合顺序缩放扩展了现有的并行缩放范式,以推动性能边界。它进一步利用了一种新颖的选择机制,该机制能够自适应地为成对比较生成区分性输入,并结合执行导向的信息以稳健地识别正确解。我们在12个大型语言模型和大型推理模型上进行了评估,显示:(1) S*在不同模型家族和规模上一致地提高了性能,使3B模型能够优于GPT-4o-mini;(2) S*使非推理模型超越了推理模型——使用S*的GPT-4o-mini在LiveCodeBench上比o1-preview高出3.7%;(3) S*进一步提高了最先进的推理模型——使用S*的DeepSeek-R1-Distill-Qwen-32B在LiveCodeBench上取得了85.7%的成绩,接近o1 (高)的88.5%。代码可在https://github.com/NovaSky-AI/SkyThought 下获得。