摘要
arXiv:2502.14905v1 公告类型:交叉
摘要:在本文中,我们通过利用大型语言模型(LLM)的推理能力,解决在LLM生成中严格执行严格模式规范的挑战。基于DeepSeek R1强化学习框架,我们的方法通过结合合成推理数据集构建和组相对策略优化(GRPO)下的自定义奖励函数,训练了一个1.5B参数模型的结构化推理技能。具体来说,我们首先在20K样本的无结构到结构化数据集上进行R1强化学习,以原始DeepSeek R1方法为镜像,建立核心推理能力。随后,我们在另一个10K推理样本数据集上进行监督微调,专注于精炼下游任务中的模式规范。尽管训练范围相对有限,GRPO训练大约需要8xH100 GPU集群20小时,以及1xA100上的3小时进行监督微调(SFT),我们的模型在强制模式一致性方面表现出稳健的性能。我们比较了我们的ThinkJSON方法与原始DeepSeek R1(671B)、DeepSeek R1的蒸馏版本(Qwen-1.5B和Qwen-7B)以及Gemini 2.0 Flash(70B),展示了其实用性。我们的结果强调了资源高效框架在模式约束文本生成中的实用价值。