LLM2D

摘要

大规模语言模型（LLMs）的部署面临资源限制和推理效率方面的重大挑战。近期研究越来越关注通过从LLMs中提炼知识来增强的小型、任务特定模型。然而，先前的研究往往忽视了知识的多样性和质量，特别是未被充分利用的负面知识。构建有效的负面知识仍然严重不足。本文介绍了一种名为质量引导对比推理提炼的新框架，旨在通过对比知识学习增强推理能力。对于正面知识，我们通过温度采样丰富其多样性，并采用自一致性进行进一步的去噪和精炼。对于负面知识，我们提出了一种创新的自对抗方法，通过采样较小语言模型的先前迭代生成低质量的推理依据，秉承了从自身弱点中学习的理念。我们开发了一种对比损失，将正面和负面知识提炼到较小的语言模型中，并集成了一个在线更新的判别器，用于评估推理依据的质量并赋予其适当的权重，优化训练过程。通过在多个推理任务上的广泛实验，我们证明了我们的方法始终优于现有的提炼技术，生成更高质量的推理依据。