LLM2D

摘要

arXiv:2502.14905v1 公告类型：交叉摘要：在本文中，我们通过利用大型语言模型（LLM）的推理能力，解决在LLM生成中严格执行严格模式规范的挑战。基于DeepSeek R1强化学习框架，我们的方法通过结合合成推理数据集构建和组相对策略优化（GRPO）下的自定义奖励函数，训练了一个1.5B参数模型的结构化推理技能。具体来说，我们首先在20K样本的无结构到结构化数据集上进行R1强化学习，以原始DeepSeek R1方法为镜像，建立核心推理能力。随后，我们在另一个10K推理样本数据集上进行监督微调，专注于精炼下游任务中的模式规范。尽管训练范围相对有限，GRPO训练大约需要8xH100 GPU集群20小时，以及1xA100上的3小时进行监督微调（SFT），我们的模型在强制模式一致性方面表现出稳健的性能。我们比较了我们的ThinkJSON方法与原始DeepSeek R1（671B）、DeepSeek R1的蒸馏版本（Qwen-1.5B和Qwen-7B）以及Gemini 2.0 Flash（70B），展示了其实用性。我们的结果强调了资源高效框架在模式约束文本生成中的实用价值。