LLM2D

摘要

arXiv:2504.14452v1 交叉类型摘要：语言模型（LMs）可以在非对抗性环境中从预训练数据中记忆并复制文本片段，即使这些环境并非有意为之，这也引发了版权、学术抄袭、隐私和创造力方面的担忧。我们引入了“语义等价优化”（ParaPO），这是一种后训练方法，可以在减少无意重述的同时保留模型的整体功能。ParaPO 使模型更偏好语义等价版本的记忆片段，而不是预训练数据中的原话内容。为保持在适当情况下引用名言的能力，我们开发了一种 ParaPO 的变体，使用系统提示来控制重述行为。在对 Llama3.1-8B 的评估中，ParaPO 一致地减少了所有测试数据集中的重述现象（例如，在创意写作中，重述度从 17.3 减少到 12.9），而先前工作中用于减轻重述现象的学习遗忘方法，在未针对遗忘的特定领域之外效果较差（从 17.3 减少到 16.9）。当应用于指令调优的 Tulu3-8B 模型时，带有系统提示的 ParaPO 成功地保存了引用名言的能力，同时减少了未经允许的重述现象（在创意写作中，重述度从 8.7 减少到 6.3）。相比之下，没有 ParaPO 调优的情况下，提示模型不要重述仅产生了微小的减少效果（从 8.7 减少到 8.4）。