摘要
arXiv:2503.24235v2 宣布类型: replace-cross
摘要:随着预训练时代对计算扩展(数据和参数)的热情逐渐减弱,测试时扩展(TTS),也 referred 为“测试时计算”,已经开始成为研究的重点。最近的研究表明,TTS 可以进一步激发大型语言模型(LLMs)的问题解决能力,不仅在诸如数学和编码等专门的推理任务上取得了重大突破,还在诸如开放式问答等一般任务上也取得了进展。然而,尽管在这个领域最近的努力激增,仍然迫切需要提供一个综合的调查,以提供系统性的理解。为了填补这一空白,我们提出了一种统一的、多维度的框架,该框架围绕 TTS 研究的四个核心维度构建:要扩展什么、如何扩展、在哪里扩展以及扩展得如何。基于这一分类体系,我们对方法、应用场景和评估方面进行了广泛的审查,并提出了一个组织化的分解,突显了个体技术在更广泛的 TTS 地景中的独特功能角色。通过这一分析,我们提炼至今为止 TTS 的主要发展轨迹,并提供了实用部署的手册指南。此外,我们指出了几个待解决的开放挑战,并提供了有希望的未来方向的见解,包括进一步扩展、澄清技术的功能本质、向更多任务泛化以及提供更多归因。我们的资源库可在 https://github.com/testtimescaling/testtimescaling.github.io/ 上访问。