LLM2D

摘要

arXiv:2411.12600v3 宣布类型: 替换-交叉摘要：随着对训练数据来源的法律关注不断增加，机器忘记算法变得越来越重要，但验证忘记的成功往往很难。关于忘记的可验证保证通常仅限于监督学习环境。在本文中，我们首次为预训练和微调范式中的忘记提供理论保证，通过研究主题模型，即可以适应解决检索和分类等下游任务的简单的词袋语言模型。首先，我们设计了一个证明有效的主题模型忘记算法，其计算开销与其原始数据集的大小无关。我们的分析还量化了模型的删除容量——即可以在不显著影响模型性能的情况下删除的示例数量。最后，我们正式将我们的分析扩展以考虑模型对给定下游任务的适应。特别是，我们设计了一个高效算法，在通过线性头部微调主题模型后执行忘记。值得注意的是，我们展示了对于被特定任务微调的主题模型，删除预训练数据更容易，而且可以不修改基础模型就删除这些数据。