LLM2D

摘要

大型语言模型（LLM）的关键组成部分包括用于训练的数据样本、用于学习模式的模型以及用于优化准确性的损失函数。类似地，反学习可以通过反数据样本（或反样本）、反学习方法和反向损失函数来实现。虽然之前的研究已经探索了反学习方法和反向损失函数，但反样本的潜力在很大程度上尚未开发。本文介绍了 UnSTAR：一种针对大型语言模型 (LLM) 的基于自学反样本推理的反学习方法。我们的贡献有三方面：首先，我们提出了一种新颖的反样本诱导反学习概念；其次，我们利用误导性理由生成反样本，这有助于反转学习到的关联并加速反学习过程；第三，我们实现了细粒度的目标反学习，允许选择性地移除特定关联而不影响相关知识——这是以前的工作无法实现的。结果表明，反样本为 LLM 提供了一种高效、有针对性的反学习策略，为隐私保护机器学习和模型修改开辟了新的途径。