LLM2D

摘要

arXiv:2503.24235v2 宣布类型: replace-cross 摘要：随着预训练时代对计算扩展（数据和参数）的热情逐渐减弱，测试时扩展（TTS），也 referred 为“测试时计算”，已经开始成为研究的重点。最近的研究表明，TTS 可以进一步激发大型语言模型（LLMs）的问题解决能力，不仅在诸如数学和编码等专门的推理任务上取得了重大突破，还在诸如开放式问答等一般任务上也取得了进展。然而，尽管在这个领域最近的努力激增，仍然迫切需要提供一个综合的调查，以提供系统性的理解。为了填补这一空白，我们提出了一种统一的、多维度的框架，该框架围绕 TTS 研究的四个核心维度构建：要扩展什么、如何扩展、在哪里扩展以及扩展得如何。基于这一分类体系，我们对方法、应用场景和评估方面进行了广泛的审查，并提出了一个组织化的分解，突显了个体技术在更广泛的 TTS 地景中的独特功能角色。通过这一分析，我们提炼至今为止 TTS 的主要发展轨迹，并提供了实用部署的手册指南。此外，我们指出了几个待解决的开放挑战，并提供了有希望的未来方向的见解，包括进一步扩展、澄清技术的功能本质、向更多任务泛化以及提供更多归因。我们的资源库可在 https://github.com/testtimescaling/testtimescaling.github.io/ 上访问。