LLM2D

摘要

大型语言模型（LLM）在下游任务中的有效性通常取决于指令微调，而指令微调严重依赖于训练数据的质量。不幸的是，收集高质量和多样化的数据既昂贵又费时。为了缓解这个问题，我们提出了一种新颖的 Star-Agents 框架，该框架通过多代理协作和评估来自动增强跨数据集的数据质量。该框架采用三管齐下的策略。它最初通过定制的采样方法使用多个 LLM 代理生成多样化的指令数据。随后，生成的数据将使用双模型方法进行严格评估，该方法评估难度和质量。最后，上述过程在一个动态细化阶段中发展，其中优先考虑更有效的LLM，从而提高整体数据质量。我们的实证研究，包括使用 Pythia 和 LLaMA 等模型进行的指令微调实验，证明了该框架的有效性。优化的数据集取得了实质性的改进，平均提高了 12%，并且在特定指标上取得了显著的增益，例如 Fermi 提高了 40%，这在 MT-bench、Vicuna bench 和 WizardLM 测试集等基准测试中得到了证明。