LLM2D
UnStar:基于自学反例推理的大语言模型遗忘学习
UnStar: Unlearning with Self-Taught Anti-Sample Reasoning for LLMs
作者: Yash Sinha, Murari Mandal, Mohan Kankanhalli
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.17050v1

摘要

大型语言模型(LLM)的关键组成部分包括用于训练的数据样本、用于学习模式的模型以及用于优化准确性的损失函数。类似地,反学习可以通过反数据样本(或反样本)、反学习方法和反向损失函数来实现。虽然之前的研究已经探索了反学习方法和反向损失函数,但反样本的潜力在很大程度上尚未开发。本文介绍了 UnSTAR:一种针对大型语言模型 (LLM) 的基于自学反样本推理的反学习方法。我们的贡献有三方面:首先,我们提出了一种新颖的反样本诱导反学习概念;其次,我们利用误导性理由生成反样本,这有助于反转学习到的关联并加速反学习过程;第三,我们实现了细粒度的目标反学习,允许选择性地移除特定关联而不影响相关知识——这是以前的工作无法实现的。结果表明,反样本为 LLM 提供了一种高效、有针对性的反学习策略,为隐私保护机器学习和模型修改开辟了新的途径。