LLM2D

摘要

arXiv:2504.21659v1 宣布类型: 新摘要: 最近，长期以来被认为的推理模型在复杂推理任务上取得了出色的表现，但往往伴随着显著的推理开销，使得效率成为一个关键的关注点。我们的实证分析表明，使用 Long-CoT 的好处因问题而异：有些问题需要复杂的推理，而其他问题则没有改进，甚至准确性下降。这促使了一种适应性推理策略的发展，这种策略可以根据输入调整推理深度。然而，先前的工作主要减少了长推理路径中的冗余性，限制了在 Long-CoT 帕拉digm 以外探索更高效策略的能力。为了解决这个问题，我们提出了一个新颖的两阶段框架，以适应性和高效性为目标进行推理。首先，我们通过合并长 CoT 模型和短 CoT 模型来构建一种混合推理模型，以实现多样的推理风格。其次，我们采用双层偏好训练来引导模型选择合适的推理风格（群体层面），并在每种风格组内倾向于简洁和正确的推理（实例层面）。实验表明，与其它基线方法相比，我们的方法显著减少了推理成本，同时保持了性能。值得注意的是，在五个数学数据集上，推理的平均长度减少了超过 50%，这突显了适应性策略在大型语言模型中优化推理效率的潜力。我们的代码很快将在 https://github.com/StarDewXXX/AdaR1 上发布。