LLM2D

摘要

arXiv:2504.12322v1 交叉公告类型摘要：虽然数据合成和蒸馏是增强小型语言模型的有前途的策略，但当前方法严重依赖大型语言模型（LLMs），而这些模型受到高计算成本、环境效率低以及可能从单一架构中继承的偏见的影响。相比之下，更小的LLMs更加易于获取且更可持续，但其个体能力往往在生成高质量、多样性和可靠的数据方面存在不足。受协作人类过程（如同行评审）的启发，我们提出了一个涉及多个小型LLMs的框架GRA，通过将小型LLMs中的专业角色聚合起来，迭代地进行精细化和质量控制，以达到类似于单一大型LLM所实现的效果。在这个协作框架中，多个小型LLMs承担不同的角色：生成器、审稿人和裁决者，以模拟一种同行评审启发的数据合成管道。生成器提出初始数据样本，审稿人对其质量和多样性进行评价，而裁决者解决冲突以最终确定输出。通过将合成过程分解为专门的子任务，协作的小型LLMs可以在数据层面与基于大型LLM的蒸馏实现同等效果。通过在多个基准上的实验，我们证明了由GRA生成的数据与或超过了单个大型LLM输出的质量，例如Qwen-2.5-72B-Instruct。我们的结果挑战了单一庞大模型对于高质量数据合成的必要性，而是提倡对较小代理的战略协调。我们的数据集、模型和代码可在https://github.com/GX-XinGao/GRA上公开获取。