LLM2D

摘要

arXiv:2504.12322v2 通报类型: replace-cross 摘要：尽管数据合成和蒸馏是增强小型语言模型的有效策略，但当前的方法严重依赖大型语言模型（LLMs），而这些模型面临着高额的计算成本、环境效率低下以及可能继承自单一架构的偏见等问题。相比之下，较小的LLMs更为易获取且可持续，但它们的个体能力往往不足以生成高质量、多样性和可靠的海量数据。受合作人类过程（如同行评审）的启发，我们提出了一种涉及多个小型LLMs的框架，命名为GRA，该框架通过跨小型LLMs汇总专业角色，实现迭代优化和质量控制，这些功能通常由单一的大型LLM来完成。在这个合作框架中，多个小型LLMs分别担任生成者、评审员和法官的角色，模拟了基于同行评审的数据合成管道。生成者提出初始数据样本，评审员评估样本的质量和多样性，法官解决冲突以最终确定输出。通过将合成过程分解为专门的子任务，合作的小型LLMs可以在数据级别上达到基于大型LLMs的蒸馏所能达到的质量性能。通过在多个基准上的实验，我们证明了由GRA生成的数据在质量上与单一大型LLM（如Qwen-2.5-72B-Instruct）输出相当或更优。我们的结果挑战了单一大型模型在高质量数据合成中的必要性，相反，倡导更有效的较小代理协调策略。我们的数据集、模型和代码已在 https://github.com/GX-XinGao/GRA 公开可用。