摘要
arXiv:2504.12322v1 交叉公告类型
摘要:虽然数据合成和蒸馏是增强小型语言模型的有前途的策略,但当前方法严重依赖大型语言模型(LLMs),而这些模型受到高计算成本、环境效率低以及可能从单一架构中继承的偏见的影响。相比之下,更小的LLMs更加易于获取且更可持续,但其个体能力往往在生成高质量、多样性和可靠的数据方面存在不足。受协作人类过程(如同行评审)的启发,我们提出了一个涉及多个小型LLMs的框架GRA,通过将小型LLMs中的专业角色聚合起来,迭代地进行精细化和质量控制,以达到类似于单一大型LLM所实现的效果。在这个协作框架中,多个小型LLMs承担不同的角色:生成器、审稿人和裁决者,以模拟一种同行评审启发的数据合成管道。生成器提出初始数据样本,审稿人对其质量和多样性进行评价,而裁决者解决冲突以最终确定输出。通过将合成过程分解为专门的子任务,协作的小型LLMs可以在数据层面与基于大型LLM的蒸馏实现同等效果。通过在多个基准上的实验,我们证明了由GRA生成的数据与或超过了单个大型LLM输出的质量,例如Qwen-2.5-72B-Instruct。我们的结果挑战了单一庞大模型对于高质量数据合成的必要性,而是提倡对较小代理的战略协调。我们的数据集、模型和代码可在https://github.com/GX-XinGao/GRA上公开获取。