摘要
大规模语言模型(LLMs)的部署面临资源限制和推理效率方面的重大挑战。近期研究越来越关注通过从LLMs中提炼知识来增强的小型、任务特定模型。然而,先前的研究往往忽视了知识的多样性和质量,特别是未被充分利用的负面知识。构建有效的负面知识仍然严重不足。本文介绍了一种名为质量引导对比推理提炼的新框架,旨在通过对比知识学习增强推理能力。对于正面知识,我们通过温度采样丰富其多样性,并采用自一致性进行进一步的去噪和精炼。对于负面知识,我们提出了一种创新的自对抗方法,通过采样较小语言模型的先前迭代生成低质量的推理依据,秉承了从自身弱点中学习的理念。我们开发了一种对比损失,将正面和负面知识提炼到较小的语言模型中,并集成了一个在线更新的判别器,用于评估推理依据的质量并赋予其适当的权重,优化训练过程。通过在多个推理任务上的广泛实验,我们证明了我们的方法始终优于现有的提炼技术,生成更高质量的推理依据。