LLM2D

摘要

通过指令微调，大型语言模型（LLM）可以增强其遵循指令的能力。与大多数关注数据混合的研究不同，我们的研究集中于从训练期间数据采样的角度增强模型的能力。从人类学习过程的启发中，通常通过专注于单一类型的主题进行练习，更容易掌握类似主题的解决方案，我们引入了一种名为 CommonIT 的新型指令微调策略：关注共同点的指令微调。具体来说，我们使用三个提出的指标（任务、嵌入和长度）将指令数据集聚集成不同的组。我们确保每个训练小批次或“分区”仅包含来自单个组的数据，这带来了跨小批次的数据随机性和批次内数据相似性。对 LLaMa 模型的严格测试表明，CommonIT 通过 IT 数据集（FLAN、CoT 和 Alpaca）和模型（LLaMa2-7B、Qwen2-7B、LLaMa 13B 和 BLOOM 7B）有效地增强了 LLM 的指令遵循能力。CommonIT 在通用领域（即知识、推理、多语言和编码的平均得分）使用长度指标平均提高了 2.1%，在特殊领域（即 GSM、Openfunctions 和代码）使用任务指标平均提高了 5.2%，在特定任务（即 MMLU）使用嵌入指标平均提高了 3.8%。代码可在 \url{https://github.com/raojay7/CommonIT} 获得。