LLM2D

摘要

arXiv:2502.13441v1 自改进类型: 横向摘要: 自改进大型语言模型（LLMs）——即通过使用自身生成的合成数据对LLMs进行微调以提高其性能——是一种很有前途的方法，能够提升LLMs的能力同时避免大量监督。现有的自改进方法往往依靠外部监督信号的形式（如种子数据）和/或第三方模型的帮助。本文提出了一种名为Crescent的简单而有效的方法，用于完全自主地生成高质量的合成问答数据。Crescent首先通过诱饵提示引导LLM生成原始问题，然后通过基于拒绝采样的自我去重技术对这些问题进行多样化处理，最后将问题输入LLM，并通过多数投票收集相应答案。我们展示了Crescent在数学推理方面完全依赖零外部监督信号实现真正自我改进的可能性；具体而言，Crescent生成的问答对足以（i）在保持LLM总体性能（尤其是在零样本设置下）的同时提升其推理能力；（ii）比基于种子数据集增强的方法更有效地将LLM知识传授给较弱的模型。