LLM2D

摘要

arXiv:2504.13950v1 类别: cross 摘要: 本文探讨了在医疗领域使用经过验证奖励的强化学习（RLVR）训练时的最佳数据选择策略。尽管RLVR在增强大型语言模型的推理能力方面表现出非凡的潜力，但大多数之前的实现大多集中在数学和逻辑谜题上，对于医学等特定领域应用的探索有限。我们研究了四种不同的数据采样策略，源自MedQA-USMLE：随机采样（基线）、以及使用Phi-4、Gemma-3-27b-it和Gemma-3-12b-it模型进行过滤。我们将Gemma-3-12b-it作为基模型，并采用组相对策略优化（GRPO），在包括MMLU、GSM8K、MMLU-Pro和CMMLU等多个基准上评估性能。我们的研究结果表明，使用过滤数据训练的模型通常优于使用随机选择样本训练的模型。值得注意的是，使用Gemma-3-12b-it进行自我过滤训练在医疗领域取得了优异性能，但在不同基准上表现出较差的稳健性，而使用同一系列中的更大模型进行过滤则整体上表现出了更好的稳健性。这些结果为RLVR在专门领域的有效数据组织策略提供了宝贵见解，并强调了在实现最佳性能时进行精心数据选择的重要性。您可以访问我们的仓库（https://github.com/Qsingle/open-medical-r1）以获取代码。