摘要
大型语言模型(LLM)在下游任务中的有效性通常取决于指令微调,而指令微调严重依赖于训练数据的质量。不幸的是,收集高质量和多样化的数据既昂贵又费时。为了缓解这个问题,我们提出了一种新颖的 Star-Agents 框架,该框架通过多代理协作和评估来自动增强跨数据集的数据质量。该框架采用三管齐下的策略。它最初通过定制的采样方法使用多个 LLM 代理生成多样化的指令数据。随后,生成的数
据将使用双模型方法进行严格评估,该方法评估难度和质量。最后,上述过程在一个动态细化阶段中发展,其中优先考虑更有效的LLM,从而提高整体数据质量。我们的实证研究,包括使用 Pythia 和 LLaMA 等模型进行的指令微调实验,证明了该框架的有效性。优化的数据集取得了实质性的改进,平均提高了 12%,并且在特定指标上取得了显著的增益,例如 Fermi 提高了 40%,这在 MT-bench、Vicuna bench 和 WizardLM 测试集等基准测试中得到了证明。