LLM2D

摘要

arXiv:2503.24235v3 宣布类型: 替换-交叉摘要：随着在预训练时代对放大计算（数据和参数）的兴趣逐渐减弱，测试时缩放（TTS），也称作“测试时计算”，已经成为一个突出的研究重点。最近的研究表明，TTS 可以进一步激发大型语言模型（LLMs）的问题解决能力，不仅在数学和编程等专门推理任务中，而且也在开放问答等通用任务中实现了重大突破。然而，尽管该领域最近的努力急剧增加，仍然迫切需要一份全面的综述，以提供系统性的理解。为了填补这一空白，我们提出了一种统一的多维度框架，沿四个核心维度组织TTS研究：要放大什么、如何放大、在哪里放大和放大效果如何。在此分类的基础上，我们进行了广泛的评估方法、应用场景和评估方面审查，并呈现了有组织的分解，强调了技术在更广泛TTS景观中的独特功能作用。从这一分析中，我们提炼了迄今为止TTS的主要发展轨迹，并提供了实际部署的实用指南。此外，我们指出了几个开放性挑战，并提出了未来方向的有价值的见解，包括进一步放大、阐明技术的功能本质、将技术推广到更多任务以及更多的归属问题。我们的仓库可在 https://github.com/testtimescaling/testtimescaling.github.io/ 上获取。