LLM2D

摘要

arXiv:2503.13208v2 通告类型: replace-cross 摘要：对大型语言模型（LLMs）进行提示调优（Prompt-tuning, PT）可以显著减少可训练参数数量，同时提升各种传统NLP任务的性能。然而，我们的调查表明，PT在复杂推理任务中提供的改进往往有限，甚至可能会降低LLMs的基本性能。这种现象表明，软提示在某些情况下可以产生积极影响，而在其他情况下则会产生负面影响，尤其是在推理的后期阶段。为应对这些挑战，我们首先识别出软提示中存在信息积累。通过详细的分析，我们证明这种现象通常伴随着模型深层结构中错误信息流模式，最终导致错误的推理结果。为此，我们提出了一种称为动态提示破坏（Dynamic Prompt Corruption, DPC）的新方法，以更好地利用软提示在复杂推理任务中的潜力，该方法根据软提示对推理过程的影响动态调整其影响。具体而言，DPC 包含两个阶段：动态触发和动态破坏。首先，动态触发衡量软提示的影响，确定它们是具有益处还是有害的。然后，动态破坏通过有选择地屏蔽干扰推理过程的关键词来减轻软提示的负面影响。我们通过在包括GSM8K、MATH和AQuA在内的各种LLMs和推理任务中进行广泛的实验来验证该方法的有效性。实验结果表明，DPC 始终能提升PT的效果，相比传统的提示调优，其准确率提高了4%到8%，突显了我们方法的有效性及其在提升LLMs复杂推理能力方面的潜力。