LLM2D

摘要

arXiv:2504.15466v1 宣布类型: 新颖摘要：扩展推理时间计算显著提升了语言模型的推理能力。然而，现有的方法存在一些重大限制：序列化的思维链方法会产生过长的输出，导致延迟增加和上下文窗口耗尽，而并行方法如自我一致性则因协调不足而导致冗余计算和性能提升有限。为了解决这些问题，我们提出了一种新的推理框架——自适应并行推理（Adaptive Parallel Reasoning, APR），它能够使语言模型在端到端的流程中协调序列化和并行计算。APR通过启用使用 spawn() 和 join() 操作的自适应多线程推理来泛化现有的推理方法。一个关键的创新是我们提出的端到端强化学习策略，它优化了父线程和子线程的推理，以提高任务的成功率，而无需预先定义推理结构。在 Countdown 推理任务上的实验结果表明，APR具有显著的优势：（1）在相同上下文窗口下更高的性能（4k 上下文窗口下，APR 达到 83.4%，而其他方法仅为 60.0%）；（2）随着计算量的增加，具有更好的可扩展性（20k 总令牌下，APR 达到 80.1%，而其他方法仅为 66.6%）；（3）在相当延迟下提高准确率（大约 5,000 毫秒时，APR 达到 75.2%，而其他方法仅为 57.3%）。APR代表了使语言模型能够通过自适应分配计算资源来自主优化其推理过程的一个步骤。