LLM2D

摘要

arXiv:2502.12859v1 宣布类型: cross 摘要：虽然大规模语言模型（LLMs）在微调后能够很好地适应下游任务，但这种适应性往往会牺牲提示的稳健性，因为即使是微小的提示变化也可能显著降低性能。为了解决这个问题，我们提出了一种简单而有效的方法——提示无关微调（PAFT），这种方法在微调过程中动态调整提示。这鼓励模型学习潜在的任务原理，而不是过度拟合到特定的提示形式。PAFT 在两个阶段运行：首先，构建一组多样且有意义的合成候选提示。其次，在微调过程中，从这一组中随机采样提示，创建动态的训练输入。在各种多样化数据集和LLMs上进行的大量实验显示，使用PAFT训练的模型在广泛范围内的提示下，包括未见过的提示，都表现出强大的稳健性和泛化能力。这种增强的稳健性不仅提高了模型性能和推理速度，还保持了训练效率。进一步的消融研究也证实了PAFT的有效性。