摘要
arXiv:2503.24235v1 Announce Type: cross
摘要:随着对预训练时代(数据和参数)计算扩展的热情逐渐减退,测试时缩放(TTS),也被称为“测试时计算”,已成为一个突出的研究焦点。最近的研究表明,TTS 可以进一步激发大型语言模型(LLMs)的问题解决能力,使其在专业化推理任务(如数学和编程)以及开放式问答等通用任务中取得显著突破。然而,尽管这一领域最近的努力激增,仍然迫切需要一份全面的综述,提供系统性的理解。为了填补这一空白,我们提出了一种统一的多维框架,在TTS 研究的四个核心维度上进行了结构化:要扩缩什么,如何扩缩,在哪扩缩,以及扩缩效果如何。基于这一分类,我们对方法、应用场景和评估方面进行了广泛的回顾,并呈现了一种有组织的分解,突出了个体技术在更广泛TTS 景观中的独特功能角色。从这一分析中,我们提炼了TTS 到目前为止的主要发展轨迹,并提供了实用部署的手册指南。此外,我们确认了一些开放性挑战,并提出了有前景的未来方向的见解,包括进一步的扩展、澄清技术的功能本质、泛化到更多的任务和更多的可归因性。