LLM2D
Think Inside the JSON: 强制LLM模式合规的强化策略
Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence
作者: Bhavik Agarwal, Ishan Joshi, Viktoria Rojkova
发布日期: 2/24/2025
arXiv ID: oai:arXiv.org:2502.14905v1

摘要

arXiv:2502.14905v1 公告类型:交叉 摘要:在本文中,我们通过利用大型语言模型(LLM)的推理能力,解决在LLM生成中严格执行严格模式规范的挑战。基于DeepSeek R1强化学习框架,我们的方法通过结合合成推理数据集构建和组相对策略优化(GRPO)下的自定义奖励函数,训练了一个1.5B参数模型的结构化推理技能。具体来说,我们首先在20K样本的无结构到结构化数据集上进行R1强化学习,以原始DeepSeek R1方法为镜像,建立核心推理能力。随后,我们在另一个10K推理样本数据集上进行监督微调,专注于精炼下游任务中的模式规范。尽管训练范围相对有限,GRPO训练大约需要8xH100 GPU集群20小时,以及1xA100上的3小时进行监督微调(SFT),我们的模型在强制模式一致性方面表现出稳健的性能。我们比较了我们的ThinkJSON方法与原始DeepSeek R1(671B)、DeepSeek R1的蒸馏版本(Qwen-1.5B和Qwen-7B)以及Gemini 2.0 Flash(70B),展示了其实用性。我们的结果强调了资源高效框架在模式约束文本生成中的实用价值。