LLM2D
AdaR1:从长持续思考到混合持续思考通过双层自适应推理优化
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization
作者: Haotian Luo, Haiying He, Yibo Wang, Jinluan Yang, Rui Liu, Naiqiang Tan, Xiaochun Cao, Dacheng Tao, Li Shen
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21659v1

摘要

arXiv:2504.21659v1 宣布类型: 新 摘要: 最近,长期以来被认为的推理模型在复杂推理任务上取得了出色的表现,但往往伴随着显著的推理开销,使得效率成为一个关键的关注点。我们的实证分析表明,使用 Long-CoT 的好处因问题而异:有些问题需要复杂的推理,而其他问题则没有改进,甚至准确性下降。这促使了一种适应性推理策略的发展,这种策略可以根据输入调整推理深度。然而,先前的工作主要减少了长推理路径中的冗余性,限制了在 Long-CoT 帕拉digm 以外探索更高效策略的能力。为了解决这个问题,我们提出了一个新颖的两阶段框架,以适应性和高效性为目标进行推理。首先,我们通过合并长 CoT 模型和短 CoT 模型来构建一种混合推理模型,以实现多样的推理风格。其次,我们采用双层偏好训练来引导模型选择合适的推理风格(群体层面),并在每种风格组内倾向于简洁和正确的推理(实例层面)。实验表明,与其它基线方法相比,我们的方法显著减少了推理成本,同时保持了性能。值得注意的是,在五个数学数据集上,推理的平均长度减少了超过 50%,这突显了适应性策略在大型语言模型中优化推理效率的潜力。我们的代码很快将在 https://github.com/StarDewXXX/AdaR1 上发布。