LLM2D

摘要

arXiv:2410.14745v2 宣告类型: replace-cross 摘要：监督微调（SFT）在将大型语言模型（LLMs）适应特定领域或任务方面至关重要。然而，在实际应用中，可用的标记数据量非常有限，这给SFT带来了严重的挑战，使其难以获得令人满意的结果。因此，一个能够充分利用标记数据和未标记数据以提高LLM微调效率的高效框架非常亟待出现。为了解决这一问题，我们提出了一种半监督微调（SemiFT）任务以及一种名为SemiEvol的框架，该框架从传播和选择的方式进行LLM对齐。在知识传播方面，SemiEvol采用了一种多层次的方法，通过权重内传播和上下文内传播将知识从标记数据传播到未标记数据。在知识选择方面，SemiEvol结合了一种协作学习机制，选择更高质量的伪响应样本。我们在GPT-4o-mini和Llama-3.1上使用了七个通用或特定领域的数据集进行了实验，证明了在目标数据上的模型性能得到了显著提升。此外，我们还将SemiEvol与SFT和自我进化方法进行了比较，突显了它在混合数据场景中的实用性。