LLM2D
通过思考干预有效控制推理模型
Effectively Controlling Reasoning Models through Thinking Intervention
作者: Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.24370v1

摘要

arXiv:2503.24370v1 类别:cross 摘要:增强推理的大语言模型(LLMs)在生成最终答案之前显式地生成中间推理步骤,有助于模型在复杂问题解决中表现出色。在本文中,我们证明了这种新兴的生成框架为更精细地控制模型行为提供了独特的机会。我们提出了一种名为Thinking Intervention的新颖范式,通过战略性地插入或修订特定的思考令牌,以明确指导LLMs的内部推理过程。我们在多个任务上进行了全面评估,包括IFEval上的指令执行、SEP上的指令层级结构以及XSTest和SORRY-Bench上的安全对齐。我们的结果表明,Thinking Intervention在指令执行场景中显著优于基准提示方法,实现了高达6.7%的准确率提升,关于指令层级结构的推理改善了15.4%,并且在使用开源DeepSeek R1模型时,不安全提示的拒绝率提高了40.0%。总体而言,我们的工作为控制推理LLMs开辟了一条有前景的新研究途径。