摘要
大型语言模型(LLM)的快速发展促使人们创建了众多基准来评估其能力。本研究重点关注中文综合医学基准(CMB),展示了监督微调(SFT)中数据集的多样性和分布如何增强 LLM 的性能。值得注意的是,我们成功地训练了一个更小的基础模型,其得分与更大的模型相当,这表明多样化且分布良好的数据集可以优化性能,无论模型大小如何。本研究表明,即使是更小的模型也可以通过精心策划和多样化的数据集达到高性能水平。通过整合各种指令内容,我们的方法解决了数据质量不一致等潜在问题。我们的结果表明,更广泛的训练数据范围可以提高模型在不同医疗场景下的泛化能力和有效性,突出了数据集质量和多样性在微调过程中的重要性。我们在 https://github.com/CAS-SIAT-XinHai/CollectiveSFT 上开源了该模型以供未来研究。