LLM2D
什么、如何、在哪里以及效果如何?关于大型语言模型测试时缩放的综述
What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
作者: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Zhihan Guo, Yufei Wang, Irwin King, Xue Liu, Chen Ma
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.24235v1

摘要

arXiv:2503.24235v1 Announce Type: cross 摘要:随着对预训练时代(数据和参数)计算扩展的热情逐渐减退,测试时缩放(TTS),也被称为“测试时计算”,已成为一个突出的研究焦点。最近的研究表明,TTS 可以进一步激发大型语言模型(LLMs)的问题解决能力,使其在专业化推理任务(如数学和编程)以及开放式问答等通用任务中取得显著突破。然而,尽管这一领域最近的努力激增,仍然迫切需要一份全面的综述,提供系统性的理解。为了填补这一空白,我们提出了一种统一的多维框架,在TTS 研究的四个核心维度上进行了结构化:要扩缩什么,如何扩缩,在哪扩缩,以及扩缩效果如何。基于这一分类,我们对方法、应用场景和评估方面进行了广泛的回顾,并呈现了一种有组织的分解,突出了个体技术在更广泛TTS 景观中的独特功能角色。从这一分析中,我们提炼了TTS 到目前为止的主要发展轨迹,并提供了实用部署的手册指南。此外,我们确认了一些开放性挑战,并提出了有前景的未来方向的见解,包括进一步的扩展、澄清技术的功能本质、泛化到更多的任务和更多的可归因性。