LLM2D

摘要

arXiv:2502.10954v1 宣告类型: cross 摘要: 测试时间缩放目前是继训练时间缩放达到极限后最有前景的研究领域之一。深度思考（DT）模型是一类递归模型，可以通过为更难的测试样本分配更多的计算量来实现从易到难的一般化。然而，由于无法确定测试样本的复杂性，DT模型在处理易和难的测试样本时都需要大量的计算。过多的测试时间计算是浪费的，并可能导致“过度思考”问题，即更多的测试时间计算会导致更差的结果。在这篇论文中，我们介绍了一种测试时间训练方法，用于确定在测试时间每个样本所需的最优计算量。我们还提出了Conv-LiGRU，一种高效且稳健的视觉推理新型递归架构。广泛的实验表明，Conv-LiGRU 比 DT 更稳定，有效缓解了“过度思考”现象，并且具有更高的准确率。