摘要
arXiv:2504.14452v1 交叉类型
摘要:语言模型(LMs)可以在非对抗性环境中从预训练数据中记忆并复制文本片段,即使这些环境并非有意为之,这也引发了版权、学术抄袭、隐私和创造力方面的担忧。我们引入了“语义等价优化”(ParaPO),这是一种后训练方法,可以在减少无意重述的同时保留模型的整体功能。ParaPO 使模型更偏好语义等价版本的记忆片段,而不是预训练数据中的原话内容。为保持在适当情况下引用名言的能力,我们开发了一种 ParaPO 的变体,使用系统提示来控制重述行为。在对 Llama3.1-8B 的评估中,ParaPO 一致地减少了所有测试数据集中的重述现象(例如,在创意写作中,重述度从 17.3 减少到 12.9),而先前工作中用于减轻重述现象的学习遗忘方法,在未针对遗忘的特定领域之外效果较差(从 17.3 减少到 16.9)。当应用于指令调优的 Tulu3-8B 模型时,带有系统提示的 ParaPO 成功地保存了引用名言的能力,同时减少了未经允许的重述现象(在创意写作中,重述度从 8.7 减少到 6.3)。相比之下,没有 ParaPO 调优的情况下,提示模型不要重述仅产生了微小的减少效果(从 8.7 减少到 8.4)。