摘要
arXiv:2412.15151v3 宣布类型: replace-cross
摘要:大型语言模型(LLMs)在各种任务中展现了卓越的能力,但由于高质量训练数据的缺乏,进一步的发展受到了限制。此外,传统的训练方法过于依赖专家标注的数据,这在很大程度上限制了LLMs的表现。为解决这一问题,我们提出了一种名为LANCE(LANguage models as Continuous self-Evolving data engineers)的新范式,通过自主生成、清理、审查和标注数据(带有偏好信息),使LLMs能够自我训练。我们的方法表明,LLMs可以作为连续自我进化的数据工程师,显著减少了训练后数据构建所需的时间和成本。通过在Qwen2系列模型上进行迭代微调,我们验证了LANCE在各种任务中的有效性,显示它能够保持高质量的数据生成并持续提升模型性能。在多个基准维度上,LANCE分别提高了Qwen2-7B和Qwen2-7B-Instruct的平均分数3.64和1.75。此自主数据构建的训练范式不仅减少了对人类专家或外部模型的依赖,还确保了数据与人类偏好一致,为开发能够超越人类能力的未来超级智能系统铺平了道路。代码可在以下链接获取:https://github.com/Control-derek/LANCE。