摘要
arXiv:2503.24235v3 宣布类型: 替换-交叉
摘要:随着在预训练时代对放大计算(数据和参数)的兴趣逐渐减弱,测试时缩放(TTS),也称作“测试时计算”,已经成为一个突出的研究重点。最近的研究表明,TTS 可以进一步激发大型语言模型(LLMs)的问题解决能力,不仅在数学和编程等专门推理任务中,而且也在开放问答等通用任务中实现了重大突破。然而,尽管该领域最近的努力急剧增加,仍然迫切需要一份全面的综述,以提供系统性的理解。为了填补这一空白,我们提出了一种统一的多维度框架,沿四个核心维度组织TTS研究:要放大什么、如何放大、在哪里放大和放大效果如何。在此分类的基础上,我们进行了广泛的评估方法、应用场景和评估方面审查,并呈现了有组织的分解,强调了技术在更广泛TTS景观中的独特功能作用。从这一分析中,我们提炼了迄今为止TTS的主要发展轨迹,并提供了实际部署的实用指南。此外,我们指出了几个开放性挑战,并提出了未来方向的有价值的见解,包括进一步放大、阐明技术的功能本质、将技术推广到更多任务以及更多的归属问题。我们的仓库可在 https://github.com/testtimescaling/testtimescaling.github.io/ 上获取。