LLM2D

摘要

arXiv:2503.13208v3 更新类型: replace-cross 摘要：对大型语言模型（LLMs）进行提示调优（PT）可以显著减少可训练参数，并促进各种传统NLP任务的性能。然而，我们的研究揭示出，提示调优提供的改进有限，甚至可能会降低LLMs在复杂推理任务上的原始性能。这种现象表明，软提示可能在某些情况下对其产生积极影响，而在其他情况下则会产生负面影响，特别是在推理过程的后期阶段。为应对这些挑战，我们首先识别出软提示中信息积累的现象。通过详细的分析，我们证明这种现象通常伴随着模型深层层次中错误的信息流动模式，最终导致错误的推理结果。我们提出了一种名为动态提示污染（DPC）的新方法，以更好地利用软提示在复杂推理任务中的作用，该方法会根据软提示对推理过程的影响动态调整其影响。具体来说，DPC 包含两个阶段：动态触发（Dynamic Trigger）和动态污染（Dynamic Corruption）。首先，动态触发（Dynamic Trigger）衡量软提示的影响，确定其是否为有益或有害的。然后，动态污染（Dynamic Corruption）通过选择性地屏蔽干扰推理过程的关键令牌来减轻软提示的负面影响。我们通过在各种LLMs和推理任务上进行广泛的实验（包括GSM8K、MATH和AQuA）验证了所提出的方法。实验结果表明，DPC可以一致地增强提示调优（PT）的性能，相比传统的提示调优，准确率提高了4%-8%，突显了我们方法的有效性及其在提升LLMs复杂推理方面的潜力。